LInux: 「ランダムな」ハングや突然の再起動の原因を診断/特定するにはどうすればよいでしょうか?

LInux: 「ランダムな」ハングや突然の再起動の原因を診断/特定するにはどうすればよいでしょうか?

では、原因が何であるかを推測するのではなく (ただし、私は NVIDIA ドライバーに賭けます)、事実を突き止めるためにどこから調べ始めればよいのでしょうか?

何度か /var/log を確認しましたが、そこにはたくさんの情報があり、重要な部分を (まだ) 見つけることができません。


背景: 短縮版

Ubuntu Karmic がリリースされた直後に、WinXP から Ubuntu Karmic に移行しました。

それ以来、私は一見次のいずれかの形で現れるランダムなクラッシュ:

  • 自発的な再起動
  • 完全にロックアップし、USB キーボードとマウスが応答しなくなります (LED がすべて消えます)。また、これが発生すると、通常、ボックスに ssh で接続できなくなります。

いろいろ調べてみたところ、Nvidia が第一容疑者のようですが、本当の原因を突き止めるためにどこから調べ始めたらよいのか全くわかりません。

提案はありますか?



背景: ロングバージョン

時には、1 週間クラッシュが起こらないのに、2 日間で 5 回クラッシュすることもあります。

容疑者を排除したいという思いから、私は時間をかけていくつかの変更を加えましたが、効果はありませんでした。

  • もともと仮想化にはKVMを使用していましたが、現在はVirtualBox OSEを使用しています
  • カーネル内でNFSを実行していましたが、現在はSambaを使用しています
  • 私はCompizを使用していましたが、その後はオフにしました
  • 私は 64 ビットの Karmic から 32 ビットに移行しました (他の理由もあります)
  • Ubuntu、Kubuntu、Xubuntu を試しました。毎回同じ問題が発生します。
  • 私はNvidiaドライバをバージョン185からバージョン96に戻しました(NVIDIA Linux x86カーネルモジュール96.43.13 Thu Jun 25 18:42:21 PDT 2009)。思われるエラーの頻度を減らすことができました。


その時点で実行されているものに関しては、これは変化する可能性があります。以下は一般的なものですが、必ずしもすべてのクラッシュで実行されているわけではありません。

  • ファイアフォックス3.5
  • 1 台または 2 台の Windows XP VM を備えた VirtualBox OSE
  • スカイプ
  • Rhythmbox または Exaile


私のハードウェアは2〜3年前のものです:

  • コア2デュオ6300
  • 4GBのRAM
  • その年代のインテル製マザーボード
  • Nvdia GeForce 7300 GS チップセットを搭載した Asus デュアルヘッド ビデオ カード
  • SATA HDD x 2台
  • デュアルモニター(そのため、私は独自の NVIDIA ドライバーに依存しています)


私はシステムアップデートを最新の状態に保っています。

上記のデータにより、調査する価値のある特定の種類のログや構成を提案してくれる人が現れることを期待します。

アップデート
RAMは問題ないようです。
以下の提案に従ってスーパーユーザーに再投稿します。

答え1

Linuxや他のUnix系システムはWindowsよりもRAMの不安定さに敏感です。memtest86を実行してRAMをチェックしてください。

答え2

このような問題は、ハードウェアの故障によって発生する可能性があります (NVIDIA ドライバーが原因と思われる場合は、グラフィック カードにハードウェア エラーがある可能性があります)。

  • 温度監視を有効にしている場合(sensors-applet / lm_sensors を使用)、高い数値が表示されていますか?
  • オーバークロックはしましたか?
  • Windows でも奇妙なクラッシュ/ハング/再起動が発生しましたか?

システムがハングした場合は、次の点を確認してください。

  • キーボードの LED が点滅していますか? 私の知る限り、それはカーネルパニック (つまりカーネルがクラッシュした) を示しています。
  • Ping でシステムに到達できますか?
  • SysRqキーコンボ(事前に有効にしておく必要があります)を使用して、システムから何らかの応答が得られるかどうかを確認します。
    • 見るhttp://en.wikipedia.org/wiki/Magic_SysRq_key詳細については
    • 仮想端末で Alt+SysRq+h を押して、キーが本当に有効になっていて機能していることを確認する必要があります (Ctrl+Alt+F1 で切り替え、Ctrl+Alt+F7 で元に戻します)。
  • 再起動後、ログファイル(/var/log/syslog、/var/log/Xorg.0.log)で最後のメッセージを確認します。

答え3

ハードウェアの問題でしょうか? カーネル ログに痕跡を残さずにコンピューターをハングさせたビデオ カードの故障を経験したことがあります。問題を切り分けるには、合成を使用する LiveCD を試すか、もっと良い方法として 3D ゲームをプレイしてください ;-)。参照:ULフォーラムの関連投稿

関連情報