Bei mir stürzt mein Ubuntu 20.04 gelegentlich auf einem Shuttle XPC Cube SH87R mit 32 GB Kingston DDR3-1600 RAM, Intel(R) Core(TM) i7-4770 CPU @ 3,40 GHz, NVIDIA GeForce GTX 1660 SUPER GPU, 2 x Toshiba 3 TB HDD in einem mdadm-Software-RAID-1-Mirror und LVM, einer 256 GB SSD mit 32 GB als Swap ab.
Ich verwende den neuesten proprietären Linux-Treiber 515.65.01 von Nvidia mit DKMS und das System ist vollständig mit den neuesten Updates aktualisiert.
Ich habe mehrere umfangreiche Memtest86+-Speichertests mit mehreren vollständigen Durchläufen ausgeführt, ohne dass Fehler gemeldet wurden.
Der Absturz tritt selten auf – vielleicht einmal im Monat oder alle zwei – und um das Problem zu diagnostizieren, habe ich Kernel-Dumps nach /var/crash eingerichtet. Aber ich bin nicht sicher, wie ich die Absturzinformationen verwenden soll, die wie folgt lauten.
ls -al /var/crash
total 48
drwxrwsrwt 3 root whoopsie 4096 Aug 25 22:26 .
drwxr-xr-x 17 root root 4096 Nov 4 2021 ..
drwxr-sr-x 2 root whoopsie 4096 Aug 25 22:24 202208252224
-rw-r--r-- 1 root whoopsie 412 Aug 28 09:29 kexec_cmd
-rw-r----- 1 root whoopsie 30651 Aug 25 22:26 linux-image-5.4.0-125-generic-202208252224.crash
ls -al /var/crash/whoopsie/
total 1315908
drwxr-sr-x 2 root whoopsie 4096 Aug 25 22:24 .
drwxrwsrwt 3 root whoopsie 4096 Aug 25 22:26 ..
-rw------- 1 root whoopsie 78133 Aug 25 22:24 dmesg.202208252224
-rw------- 1 root whoopsie 1347392784 Aug 25 22:24 dump.202208252224
Der Inhalt der dmesg-Datei unmittelbar vor dem Absturz ist wie folgt:
[ 3528.253961] TCP: br0: Driver has suspect GRO implementation, TCP performance may be compromised.
[ 5154.707563] mce: [Hardware Error]: CPU 0: Machine Check Exception: 5 Bank 4: ba00000058000402
[ 5154.716109] mce: [Hardware Error]: RIP !INEXACT! 10:<ffffffffbc813ebc> {filemap_map_pages+0x2dc/0x380}
[ 5154.725475] mce: [Hardware Error]: TSC ff0bc5dd3d3
[ 5154.730364] mce: [Hardware Error]: PROCESSOR 0:306c3 TIME 1661458894 SOCKET 0 APIC 0 microcode 28
[ 5154.739238] mce: [Hardware Error]: Run the above through 'mcelog --ascii'
[ 5154.746078] mce: [Hardware Error]: Machine check: Processor context corrupt
[ 5154.753078] Kernel panic - not syncing: Fatal machine check
Vorschläge sind willkommen.
Antwort auf Kommentare:
Ich bin mir nicht sicher, ob eine falsche BIOS-Einstellung der Übeltäter ist, da es mit der aktuellen BIOS-Einstellung seit Jahren rund um die Uhr stabil läuft. Die BIOS-Optionen sind ziemlich einfach. Ich kann die CPU-Spannung nicht ändern. Ich könnte die RAM-Frequenz senken, aber metest86+ zeigt keine Fehler an. Ich frage mich, ob sich die MCE-Ausnahme auf eine Cache-Speicherbank oder RAM bezieht. Wenn es Cache ist, dann wird die CPU wohl müde – schließlich ist es ein PC aus dem Jahr 2013, der ununterbrochen lief, nur mit dem Wechseln der CMOS-Batterie und dem Ersetzen der gespiegelten Festplatten über mdadm. Ich tendiere derzeit zu Mikrocode oder CPU-Spannung. Ich habe das ursprüngliche 300-W-Netzteil durch ein 500-W-Netzteil ersetzt, als ich die Nvidia 1660 eingebaut habe, die maximal 125 W verbraucht und die CPU auf 84 W ausgelegt ist. Ich könnte wohl experimentieren, indem ich das alte Netzteil einsetze und sehe, ob die CPU-Spannung über den aktuellen Wert von 1,0 steigt. Aber 300 W sind wahrscheinlich etwas grenzwertig, aber für Tests mit wenig GPU-Leistung würde es wohl einen Hinweis geben. Ich kann immer noch ein neues 500-W-Netzteil für etwa 90 $ bekommen.