Hilfe bei gelegentlichen Abstürzen von Ubuntu 20.04

Hilfe bei gelegentlichen Abstürzen von Ubuntu 20.04

Bei mir stürzt mein Ubuntu 20.04 gelegentlich auf einem Shuttle XPC Cube SH87R mit 32 GB Kingston DDR3-1600 RAM, Intel(R) Core(TM) i7-4770 CPU @ 3,40 GHz, NVIDIA GeForce GTX 1660 SUPER GPU, 2 x Toshiba 3 TB HDD in einem mdadm-Software-RAID-1-Mirror und LVM, einer 256 GB SSD mit 32 GB als Swap ab.

Ich verwende den neuesten proprietären Linux-Treiber 515.65.01 von Nvidia mit DKMS und das System ist vollständig mit den neuesten Updates aktualisiert.

Ich habe mehrere umfangreiche Memtest86+-Speichertests mit mehreren vollständigen Durchläufen ausgeführt, ohne dass Fehler gemeldet wurden.

Der Absturz tritt selten auf – vielleicht einmal im Monat oder alle zwei – und um das Problem zu diagnostizieren, habe ich Kernel-Dumps nach /var/crash eingerichtet. Aber ich bin nicht sicher, wie ich die Absturzinformationen verwenden soll, die wie folgt lauten.

ls -al /var/crash 
total 48 
drwxrwsrwt  3 root whoopsie  4096 Aug 25 22:26 . 
drwxr-xr-x 17 root root      4096 Nov  4  2021 .. 
drwxr-sr-x  2 root whoopsie  4096 Aug 25 22:24 202208252224
-rw-r--r--  1 root whoopsie   412 Aug 28 09:29 kexec_cmd
-rw-r-----  1 root whoopsie 30651 Aug 25 22:26 linux-image-5.4.0-125-generic-202208252224.crash

ls -al /var/crash/whoopsie/
total 1315908
drwxr-sr-x 2 root whoopsie       4096 Aug 25 22:24 .
drwxrwsrwt 3 root whoopsie       4096 Aug 25 22:26 ..
-rw------- 1 root whoopsie      78133 Aug 25 22:24 dmesg.202208252224
-rw------- 1 root whoopsie 1347392784 Aug 25 22:24 dump.202208252224

Der Inhalt der dmesg-Datei unmittelbar vor dem Absturz ist wie folgt:

[ 3528.253961] TCP: br0: Driver has suspect GRO implementation, TCP performance may be compromised.
[ 5154.707563] mce: [Hardware Error]: CPU 0: Machine Check Exception: 5 Bank 4: ba00000058000402
[ 5154.716109] mce: [Hardware Error]: RIP !INEXACT! 10:<ffffffffbc813ebc> {filemap_map_pages+0x2dc/0x380}
[ 5154.725475] mce: [Hardware Error]: TSC ff0bc5dd3d3 
[ 5154.730364] mce: [Hardware Error]: PROCESSOR 0:306c3 TIME 1661458894 SOCKET 0 APIC 0 microcode 28
[ 5154.739238] mce: [Hardware Error]: Run the above through 'mcelog --ascii'
[ 5154.746078] mce: [Hardware Error]: Machine check: Processor context corrupt
[ 5154.753078] Kernel panic - not syncing: Fatal machine check

Vorschläge sind willkommen.


Antwort auf Kommentare:

Ich bin mir nicht sicher, ob eine falsche BIOS-Einstellung der Übeltäter ist, da es mit der aktuellen BIOS-Einstellung seit Jahren rund um die Uhr stabil läuft. Die BIOS-Optionen sind ziemlich einfach. Ich kann die CPU-Spannung nicht ändern. Ich könnte die RAM-Frequenz senken, aber metest86+ zeigt keine Fehler an. Ich frage mich, ob sich die MCE-Ausnahme auf eine Cache-Speicherbank oder RAM bezieht. Wenn es Cache ist, dann wird die CPU wohl müde – schließlich ist es ein PC aus dem Jahr 2013, der ununterbrochen lief, nur mit dem Wechseln der CMOS-Batterie und dem Ersetzen der gespiegelten Festplatten über mdadm. Ich tendiere derzeit zu Mikrocode oder CPU-Spannung. Ich habe das ursprüngliche 300-W-Netzteil durch ein 500-W-Netzteil ersetzt, als ich die Nvidia 1660 eingebaut habe, die maximal 125 W verbraucht und die CPU auf 84 W ausgelegt ist. Ich könnte wohl experimentieren, indem ich das alte Netzteil einsetze und sehe, ob die CPU-Spannung über den aktuellen Wert von 1,0 steigt. Aber 300 W sind wahrscheinlich etwas grenzwertig, aber für Tests mit wenig GPU-Leistung würde es wohl einen Hinweis geben. Ich kann immer noch ein neues 500-W-Netzteil für etwa 90 $ bekommen.

verwandte Informationen