Ubuntu 10.04 サーバークラッシュ

Ubuntu 10.04 サーバークラッシュ

私は Ubuntu 10.04 (x64) を Web/MySQL サーバーとして実行しています。

サーバーが SSH、Ping、HTTP などに応答しなくなり、マシンに物理的にアクセスできる技術者が次のスクリーンショットを送信してきました。

http://img442.imageshack.us/img442/389/img00062201012211332.jpg

再起動前に接続したモニターから(状況は修正されました)。再起動後にログを確認してもテキストが見つからないため、この情報がどのログに保存されているかはわかりません。

何が起こったのかを調査し、二度と同じことが起こらないようにするのに協力してくれる人はいませんか?

ありがとう

答え1

カーネル パニックはさまざまな理由で発生する可能性がありますが、通常はモジュールの問題 (ハードウェアに適合しないドライバー) またはハードウェアの問題のいずれかです。

あなたの場合、問題が再現しない場合は、ハードウェアに原因がある可能性が高くなります。
また、メモリに問題がある可能性もあります (不良メモリを特定するのは必ずしも簡単ではありません)。

サーバーを起動し、grub画面(起動直後)で「memtest86」オプションを選択します。メモリテストは数日間連続して実行する必要があります。
3日後にエラーが発生しない場合は、メモリは多分わかりました。

答え2

他に情報がない場合(ring0 が言ったように、どこかのディスクに保存されることはありません)、他にできることは何もありません。

事前に対策を講じたい場合、またはランダムに数回発生する場合は、LKCD を使用してコア ダンプをキャプチャしてみてください。 http://lkcd.sourceforge.net/

どのくらいの RAM が搭載されているかはわかりませんが、memtest86 を数時間試してみるだけでも効果があるかもしれません。もちろん、非常にまれなエラーは検出できません。

また、kernel.panic=5 /etc/sysctl.conf を追加することをお勧めします。これにより、カーネルが再度ハングした場合に、サーバーは 5 秒後に自動的に再起動します。

最後に、常に何らかの完全自動管理を行う必要があると思います。そうすれば、ログインしてメッセージをコピーし、自分でサーバーを再起動できます。

答え3

長期間にわたってサーバーが高負荷/プロセス過多で実行されたときに、このようなクラッシュが発生したことがあります。マシンで何が起こっているかを全体的にチェックするには、munin などの監視フレームワークをサーバーにインストールすることをお勧めします。これにより、再び同じことが発生した場合の分析に役立ちます。

答え4

少し的外れに聞こえるかもしれませんが、64 ビット サーバーで Ubuntu x64 を実行すると問題が発生しました。同じエラーとそれに続く「フリーズ」の問題が頻繁に発生しました。ドライバーを削除したり、ドライバーを追加したり、バグを調べるのに何時間も費やしましたが、何も役に立ちませんでした。最終的に、32 ビット バージョンの Ubuntu をインストールすることで解決しました。うまくいきました。64 ビットは必要なかったので、そのままにしました。64 ビットが必要な場合は、これは良い解決策ではありませんが、少し探索する道筋になるかもしれません。Ubuntu を実行しているサーバーを調べて、既知の互換性の問題があるかどうかを確認してください。幸運を祈ります。

関連情報