Ubuntu 16.04突然崩潰

Ubuntu 16.04突然崩潰

我在調試遇到的系統崩潰時遇到問題。

症狀:

在沒有警告的情況下,我的顯示器變成空白,系統不會回應任何輸入。電腦也無法透過網路進行通訊。 ping 和 ssh 都不起作用。然而,計算機並沒有「關閉」。它的風扇仍然嗡嗡作響,燈仍然亮著。我見過這種崩潰發生在啟動後幾個小時到幾天內。我以為連續 6 天正常運作後問題就消失了,但隨後又崩潰了。發生這種情況時,我必須按住電源按鈕以強制硬重啟。然後它啟動正常,看起來沒有什麼問題(溫度感測器看起來也很好)。此外,該問題似乎並不取決於 CPU/GPU 負載。我能夠毫無問題地運行 CPU 密集型進程。它在一些夜間工作中崩潰了,但在系統閒置的夜晚也會崩潰。

總之:

  • 黑屏且對鍵盤/滑鼠輸入無反應
  • 對 ssh / ping 網路輸入沒有回應。
  • 風扇和 LED 燈仍然亮著並發出嗡嗡聲。按住電源按鈕確實會強制重新啟動。
  • 我發現兩次崩潰之間的時間間隔從 2 小時到 144 小時不等。 (平均時間約 6-8 小時)。
  • 似乎不依賴CPU負載。無論系統正在處理還是空閒,都會發生崩潰。

系統詳情

  • 電腦已經有7年左右的歷史了。
  • 我使用的是 Ubuntu 16.04.1 LTS 64 位元(Gnome 版本)
  • CPU 為 Intel(R) Core(TM) i7-2600K CPU @ 3.40GHz
  • GPU是舊的NVIDIA Corporation GT200b [GeForce GTX 285]
  • 電源為500W OCZ500MXSP
  • 32 GB 記憶體(x4 8GB HyperX)
  • 128GB SSD
  • 4 個 2TB HDD 配置為軟體 RAID10。

lspci的輸出

00:00.0 Host bridge: Intel Corporation 2nd Generation Core Processor Family DRAM Controller (rev 09)
00:01.0 PCI bridge: Intel Corporation Xeon E3-1200/2nd Generation Core Processor Family PCI Express Root Port (rev 09)
00:01.1 PCI bridge: Intel Corporation Xeon E3-1200/2nd Generation Core Processor Family PCI Express Root Port (rev 09)
00:16.0 Communication controller: Intel Corporation 6 Series/C200 Series Chipset Family MEI Controller #1 (rev 04)
00:19.0 Ethernet controller: Intel Corporation 82579V Gigabit Network Connection (rev 05)
00:1a.0 USB controller: Intel Corporation 6 Series/C200 Series Chipset Family USB Enhanced Host Controller #2 (rev 05)
00:1b.0 Audio device: Intel Corporation 6 Series/C200 Series Chipset Family High Definition Audio Controller (rev 05)
00:1c.0 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 1 (rev b5)
00:1c.1 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 2 (rev b5)
00:1c.3 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 4 (rev b5)
00:1c.4 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 5 (rev b5)
00:1c.6 PCI bridge: Intel Corporation 82801 PCI Bridge (rev b5)
00:1c.7 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 8 (rev b5)
00:1d.0 USB controller: Intel Corporation 6 Series/C200 Series Chipset Family USB Enhanced Host Controller #1 (rev 05)
00:1f.0 ISA bridge: Intel Corporation P67 Express Chipset Family LPC Controller (rev 05)
00:1f.2 SATA controller: Intel Corporation 6 Series/C200 Series Chipset Family SATA AHCI Controller (rev 05)
00:1f.3 SMBus: Intel Corporation 6 Series/C200 Series Chipset Family SMBus Controller (rev 05)
02:00.0 VGA compatible controller: NVIDIA Corporation GT200b [GeForce GTX 285] (rev a1)
04:00.0 USB controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
05:00.0 SATA controller: JMicron Technology Corp. JMB362 SATA Controller (rev 10)
06:00.0 USB controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
07:00.0 PCI bridge: ASMedia Technology Inc. ASM1083/1085 PCIe to PCI Bridge (rev 01)
08:03.0 FireWire (IEEE 1394): VIA Technologies, Inc. VT6306/7/8 [Fire II(M)] IEEE 1394 OHCI Controller (rev c0)
09:00.0 SATA controller: Marvell Technology Group Ltd. 88SE9172 SATA 6Gb/s Controller (rev 11)

採取的調試步驟:

我已將journalctl 設定為持久性的,以便我可以存取先前啟動的日誌。但是,透過查看日誌,我無法找到任何可能指出問題或解決方案的內容。

當我第一次看到這個問題時,我的第一直覺是 CPU 溫度。我設定了一個系統服務來sensors每 5 秒記錄一次輸出。

最後幾行在這裡: https://gist.github.com/Erotemic/590699faa04956078f0ecc13f74217d8

請注意,最後一行充滿了空字元。我推測系統在寫入檔案的過程中崩潰了。

溫度似乎都在合理範圍內。其中一個感測器CPUTIN: -60.0°C的恆定值為 -60,我猜這意味著感測器不工作?對於我的一些粉絲來說似乎也是如此。那麼,也許發生了我無法偵測到的溫度問題?

最近一次崩潰之前系統日誌的最後幾行: https://gist.github.com/Erotemic/4288a98be973edd8ed20915178122fdc

它顯示感測器警報,但(對我來說)似乎沒有任何異常值。

該系統很舊,因此可能其中一個硬體組件出現故障是有道理的。然而,我不知道它是哪一個。 RAM最近升級了(崩潰是在升級之前發生的),所以我懷疑是這樣。關於它可能是什麼/我如何找到答案有什麼想法嗎?

相關內容