LInux:如何診斷/隔離導致「隨機」掛起和自發性重啟的原因?

LInux:如何診斷/隔離導致「隨機」掛起和自發性重啟的原因?

因此,與其猜測原因是什麼(儘管我的錢花在了 nvidia 驅動程式上),我應該從哪裡開始尋找一些事實?

我已經多次瀏覽過 /var/log,但裡面有很多東西,但我(還)無法發現重要的部分。


背景:簡短版本

Ubuntu Karmic 推出後,我就從 WinXP 遷移到它了。

從那時起我經歷了一系列似乎隨機崩潰表現為:

  • 自發重啟
  • 完全鎖定,我的 USB 鍵盤和滑鼠變得無響應(甚至 LED 全部關閉)。另外,當發生這種情況時,我通常無法透過 ssh 連接到盒子。

我已經進行了大量搜索,Nvidia 似乎是主要嫌疑人,但我不知道從哪裡開始尋找真正的原因是什麼。

建議?



背景:長版

有時,我可以整整一週不發生車禍,然後兩天內就會發生 5 起車禍。

出於消除可能嫌疑人的願望,我隨著時間的推移做了一些改變,但無濟於事:

  • 原本我使用KVM進行虛擬化,現在使用VirtualBox OSE
  • 我在核心中運行 NFS,但現在使用 Samba
  • 我之前使用 Compiz,但後來將其關閉
  • 我已經從 64 位元 Karmic 升級到 32 位元(也出於其他原因)
  • 我嘗試過 Ubuntu、Kubuntu 和 Xubuntu。每次都遇到同樣的麻煩。
  • 我將 Nvidia 驅動程式從版本 185 回滾到版本 96(NVIDIA Linux x86 核心模組 96.43.13 Thu Jun 25 18:42:21 PDT 2009)。這似乎減少了錯誤的頻率。


就當時正在運行的內容而言,這可能會有所不同。以下是常見的,但不一定在每次崩潰時都運行:

  • 火狐3.5
  • 具有 1 或 2 個 Windows XP 虛擬機器的 VirtualBox OSE
  • Skype
  • Rhythmbox 或 Exaile


我的硬體已經使用了 2 - 3 年:

  • 酷睿 2 雙核心 6300
  • 4GB記憶體
  • 那個年份的某種英特爾主機板
  • 配備 Nvdia GeForce 7300 GS 晶片組的華碩雙頭顯示卡
  • 2 個 SATA 硬碟
  • 雙顯示器(因此我依賴專有的 nvidia 驅動程式)


我一直在關注我的系統更新。

希望上面的數據可能會提示有人建議值得研究的特定類型的日誌或配置。

更新
RAM 看起來不錯
下面的建議將在超級用戶上重新發布

答案1

Linux 和其他類 Unix 系統對片狀 RAM 比 Windows 更敏感。我會運行 memtest86 並檢查 RAM

答案2

此類問題確實有可能是硬體故障引起的(如果懷疑nvidia驅動,可能顯示卡有硬體錯誤?)

  • 如果您啟用了溫度監控(使用感測器小程式/lm_sensors),是否有任何高讀數?
  • 你有超頻嗎?
  • 您在 Windows 下是否也遇到過奇怪的崩潰/掛起/重新啟動?

如果系統掛起,需要檢查一些事項:

  • 鍵盤 LED 燈閃爍嗎?據我所知,這表明內核恐慌(即內核崩潰)
  • 您可以 Ping 到達系統嗎?
  • 使用 SysRq 組合鍵(必須事先啟用)查看是否可以從系統獲得一些回應
    • http://en.wikipedia.org/wiki/Magic_SysRq_key欲了解詳情
    • 您應該透過在虛擬終端上按 Alt+SysRq+h 來檢查該密鑰是否確實已啟用並正常工作(使用 Ctrl+Alt+F1 切換到該位置;使用 Ctrl+Alt+F7 切換回來)
  • 重新啟動後,檢查日誌檔案(/var/log/syslog、/var/log/Xorg.0.log)中的最後訊息

答案3

也許是硬體問題?我有過因顯示卡損壞導致電腦掛起而沒有在核心日誌上留下任何痕跡的經驗。要隔離問題,請嘗試一些使用整合的 LiveCD,或者更好的是:玩 3D 遊戲;-)。看:UL 論壇上的相關帖子

相關內容