有關 Ubuntu 20.04 偶爾崩潰的幫助

有關 Ubuntu 20.04 偶爾崩潰的幫助

我的 Ubuntu 20.04 在配備 32 GB Kingston DDR3-1600 RAM、Intel(R) Core(TM) i7-4770 CPU @ 3.40GHz、NVIDIA GeForce GTX 1660 SUPER GPU、2 x Toshiba 3 的 Shuttle XPC Cube SH87R 上偶爾會崩潰mdadm 軟體RAID 1 鏡像和LVM 中的TB HDD,一個256 GB SSD,其中32GB 用作交換。

我使用帶有 DKMS 的最新 Nvidia 專有 Linux 驅動程式 515.65.01,並且系統已完全更新為最新更新。

我已經運行了多次廣泛的 memtest86+ 記憶體測試,進行了多次完整的測試,沒有報告任何錯誤。

崩潰很少發生 - 可能一兩個月一次 - 為了診斷問題,我已將內核轉儲設置為 /var/crash。但我不知道如何使用崩潰訊息,如下。

ls -al /var/crash 
total 48 
drwxrwsrwt  3 root whoopsie  4096 Aug 25 22:26 . 
drwxr-xr-x 17 root root      4096 Nov  4  2021 .. 
drwxr-sr-x  2 root whoopsie  4096 Aug 25 22:24 202208252224
-rw-r--r--  1 root whoopsie   412 Aug 28 09:29 kexec_cmd
-rw-r-----  1 root whoopsie 30651 Aug 25 22:26 linux-image-5.4.0-125-generic-202208252224.crash

ls -al /var/crash/whoopsie/
total 1315908
drwxr-sr-x 2 root whoopsie       4096 Aug 25 22:24 .
drwxrwsrwt 3 root whoopsie       4096 Aug 25 22:26 ..
-rw------- 1 root whoopsie      78133 Aug 25 22:24 dmesg.202208252224
-rw------- 1 root whoopsie 1347392784 Aug 25 22:24 dump.202208252224

崩潰前的dmesg檔案內容如下:

[ 3528.253961] TCP: br0: Driver has suspect GRO implementation, TCP performance may be compromised.
[ 5154.707563] mce: [Hardware Error]: CPU 0: Machine Check Exception: 5 Bank 4: ba00000058000402
[ 5154.716109] mce: [Hardware Error]: RIP !INEXACT! 10:<ffffffffbc813ebc> {filemap_map_pages+0x2dc/0x380}
[ 5154.725475] mce: [Hardware Error]: TSC ff0bc5dd3d3 
[ 5154.730364] mce: [Hardware Error]: PROCESSOR 0:306c3 TIME 1661458894 SOCKET 0 APIC 0 microcode 28
[ 5154.739238] mce: [Hardware Error]: Run the above through 'mcelog --ascii'
[ 5154.746078] mce: [Hardware Error]: Machine check: Processor context corrupt
[ 5154.753078] Kernel panic - not syncing: Fatal machine check

如有建議,我們將不勝感激。


對評論的回應:

我不確定錯誤的 BIOS 設定是罪魁禍首,因為它已經在當前的 BIOS 設定下穩定運行多年,24/7。 BIOS 選項有些基本。我無法改變CPU電壓。我可以降低 RAM 頻率,但 metest86+ 沒有顯示任何錯誤。我想知道 mce 異常是指快取記憶體還是 RAM?如果是快取的話,我猜CPU已經累了——畢竟是2013年的電腦,一直在不停地運行,只更換了cmos電池,並透過mdadm更換了鏡像磁碟。我目前傾向於微碼或CPU電壓。當我放入 Nvidia 1660 時,我確實將原始的 300w 電源更換為 500w,它最大使用 125W,CPU 額定為 84 W。值1.0。但 300w 可能有點邊緣,但對於使用很少的 GPU 功率進行測試,我想它會給出一個提示。我仍然可以花費大約 90 美元購買新的 500w 電源。

相關內容