如何診斷 Linux 上的電腦偶爾死機?

如何診斷 Linux 上的電腦偶爾死機?

在過去的幾個月裡,我的桌上型電腦偶爾會出現死機現象。如果發生這種情況,螢幕上的內容包括。滑鼠被凍結,我無法使用鍵盤重新啟動或切換到虛擬控制台,並且 SysRq 序列沒有效果 - 唯一的選擇是透過機箱上的按鈕進行硬重置。

我主要使用 Debian 11.6,偶爾使用 Windows 11 玩遊戲。我在玩遊戲時從未經歷過當機,但這可能只是因為我花在遊戲上的時間太少了。

線索不一致:

  • 夏季開始結冰,當時這裡有熱浪(> 40°C)。所以我認為這是一個過熱問題,事實上,隨著秋季和冬季,結冰發生的頻率降低了 - 但它們並沒有完全停止。以前每 1 或 2 天發生一次,現在可能每週發生一次。

  • 當我觀看全螢幕影片時,經常會出現凍結現象,有時(但並非總是)會出現彩色圖案,就好像隨機資料被寫入視訊記憶體一樣。因此我認為這可能是顯示卡的問題。 (我安裝了VDPAU,因此程式可能會使用硬體解碼。)但是,在正常桌面使用過程中也會發生凍結。

診斷:

  • 重啟後查看系統日誌,沒有相關資訊。最後的條目通常早幾分鐘,並且與標準系統事件相關。但這可能僅僅意味著最後的訊息由於凍結而丟失。

  • dd if=/dev/zero of=/dev/null我使用了基於以下內容的CPU負載測試電腦不規則死機,有 7 個並行作業(CPU 是 4 核,具有超線程)。htop顯示所有 8 個虛擬核心均處於 100%,但這並沒有導致大約 10 分鐘後凍結。

  • 我安裝了兩者memtest86,並memtest86+從啟動選單開始記憶體測試。對於這兩個版本,計算機都會在大約一秒鐘後凍結,但沒有錯誤訊息。請參閱下面的螢幕照片。

    這是不是表示我記憶力有問題?我以為我會收到一條錯誤訊息。而且,我經常操作大數據文件,從來沒有註意到文件資料損壞。我偶爾也會進行一些會填滿主記憶體的科學計算,並且在此期間也從未經歷過凍結。 (然而,由於過多的交換,我經常使系統崩潰。)

我發現持續且快速地觸發凍結的唯一方法是記憶體測試。

問題:

  • 如果確實是記憶體故障,我如何確定需要更換四個記憶體模組中的哪一個?或者我應該全部更換?

  • 我讀過幾個類似的問題,凍結可能是由於電源有缺陷造成的。大約 1.5 年前,我更換了電源,因為舊電源壞了。我原本打算使用完全相同的型號,但該型號已不再生產,因此我使用了規格稍高的型號。我利用這個機會徹底清潔了箱子的內部。

  • 我該怎麼做才能更好地從軟體方面診斷這個問題?特別是,如何保留日誌訊息直至凍結? Debian 11 使用 systemd 日誌記錄 – 有沒有一種方法可以替代或另外向伺服器發送訊息?

系統規格:

  • 華碩電腦公司 P8Z77-M Rev 1.xx,附 SMBIOS 2.7
  • 美國 Megatrends 公司 BIOS 版本 1806
  • 安靜!直電源11 750W 750W ATX 黑色
  • 英特爾(R) 酷睿(TM) i7-3770 CPU @ 3.40GHz
  • 256 KiB L1 快取、1 MiB L2 快取、8 MiB L3 快取(L3 似乎已停用,我不記得這樣做過)
  • Intel Corporation 7 系列/C216 晶片組
  • 4 個模組 à 4 GB Transcend JM1333KLN-8GK DIMM DDR3 同步 1333 MHz (0.8 ns)
  • NVIDIA 公司 GP106 [GeForce GTX 1060 6GB](修訂版 a1)
  • SAMSUNG SSD 830 系列和 WDC WD60EFRX,均無 SMART 錯誤

這台電腦已經有大約 10 年的歷史了,所以買一台新電腦也不算太糟。在此期間,我進行了一些小的升級(更多的記憶體、稍微更好的 CPU、更好的顯示卡),但它們都不是最近的,無法解釋凍結的原因。

凍結後記憶體測試截圖:

記憶體測試86 記憶體測試86+

在第二個畫面中,紅色「+」在凍結後繼續閃爍,這表示顯示卡仍在運行。


補充:

為了回應@Appleoddity 的評論,我取出了記憶體模組。它們緊緊地固定在插槽中,並且包括觸點在內都是乾淨的。當我重新插入它們時,我注意到有時它們看起來已插入,但實際上沒有正確插入,是通過用力推動固定的。但當發生這種情況時,我沒有出現記憶體錯誤,但電腦根本無法啟動。

如果只有一個模組有缺陷,我一次將它們放入一個並運行記憶體測試。但是,對於每個模組,所有測試都通過,沒有錯誤訊息,也沒有凍結。

然後我把它們兩兩配對。我不確定我是否完成了所有 6 種組合,但在我嘗試的所有幾種組合中,計算機在內存測試中凍結了幾秒鐘。

最後,我更新了主機板BIOS(從2015年12月18日更新到最新版本2203),希望它能以某種方式解決問題或至少提供更好的診斷,但沒有成功。我也嘗試過減少BIOS 設定中的記憶體時脈速度,但收到「超頻」不成功的錯誤訊息。

還有什麼我可以嘗試的嗎?我應該購買全新的記憶體模組嗎?

相關內容