Ubuntu 20.04 stürzt ab: Ein ECC-Fehler oder L2-Poison wurde erkannt

Ubuntu 20.04 stürzt ab: Ein ECC-Fehler oder L2-Poison wurde erkannt

Ubuntu 20.04 stürzt zufällig zu unterschiedlichen Zeiten ab. Kann nicht auf ein bestimmtes Ereignis verweisen.

uname -a 
Linux ubuntu 5.11.0-051100-generic #202102142330 
SMP Sun Feb 14 23:33:21 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux

Stürzt mit folgendem Signal ab:

 kernel:[19849.215258] [Hardware Error]: Uncorrected, software restartable error.

 kernel:[19849.215259] [Hardware Error]: CPU:22 (19:21:0) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135

 kernel:[19849.215263] [Hardware Error]: Error Addr: 0x000000076bed1c00

 kernel:[19849.215264] [Hardware Error]: IPID: 0x001000b000000000

 kernel:[19849.215266] [Hardware Error]: Load Store Unit Ext. Error Code: 1, An ECC error or L2 poison was detected on a data cache read by a load.

 kernel:[19849.215269] [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD

Hardwareinfo:

### CPU
  Architecture:                    x86_64
  CPU op-mode(s):                  32-bit, 64-bit
  Byte Order:                      Little Endian
  Address sizes:                   48 bits physical, 48 bits virtual
  CPU(s):                          24
  On-line CPU(s) list:             0-23
  Thread(s) per core:              2
  Core(s) per socket:              12
  Socket(s):                       1
  NUMA node(s):                    1
  Vendor ID:                       AuthenticAMD
  CPU family:                      25
  Model:                           33
  Model name:                      AMD Ryzen 9 5900X 12-Core Processor
  Stepping:                        0
  Frequency boost:                 enabled
  CPU MHz:                         2200.000
  CPU max MHz:                     6442.4800
  CPU min MHz:                     2200.0000

### Base Board Information
  Manufacturer: ASRock
  Product Name: X570 Taichi

### Memory:
G Skill Trident Z Neo DDR4 - 3600Mhz 32GB (2 x 16GB)

Welche Möglichkeiten werden empfohlen, um die Grundursache herauszufinden? Wie aktiviere ich weitere Protokollierungen oder wenn das Protokoll bereits vorhanden ist, wo finde ich es usw.? Für jede Anleitung bin ich dankbar. Danke!

Antwort1

Das ist nichttechnischeine Antwort, aber ...

Die ECC error or L2 poison was detected on a data cache read by a loadMeldung weist auf ein Speicherproblem hin, entweder mit dem RAM selbst oder dem Cache auf der CPU. Beides ist nicht optimal, aber Sie können den System-RAM mit dem folgenden Verfahren testen:

  1. Starten Sie Ihr System neu
  2. Drücken und halten Sie die ShiftTaste, um das GRUB-Menü aufzurufen.
  3. Wählen Sie „Ubuntu, memtest86+“ und drücken Sie. Enter
    Der Speichertest wird bis zum Ende der Zeit oder bis Sie die EscTaste drücken ausgeführt. Lassen Sie die Maschine mindestens einen Test abschließen, bevor Sie den Vorgang beenden.

Bezogen aufBerichte umIm Internet scheint dieses Problem nur bei den höherwertigen AMD Ryzen-Prozessoren aufzutreten. Beim Lesendieser lange Threadauf der Community-Site von AMD wurde dieses interessante Detail enthüllt:

Ich habe den Speicher ausgetauscht und der Computer läuft jetzt seit ein paar Tagen einwandfrei. Hoffentlich hilft Ihnen das so weiter wie mir. Der vorherige Speicher war ein Gskill 3600 MHz-Speicher ... der neue Speicher ist ein 3200-Speicher von Corsair.

Ihre Frage gibt nicht an, welche Art von Speicher Sie installiert haben, aber wenn es sich um einen Satz Module mit höherer Frequenz handelt, kann es sein, dass etwas zwischen dem RAM und der CPU eine Instabilität verursacht. Wenn der Speichertest fehlschlägt und Sie zufällig kompatiblen 3200-MHz-RAM zur Verfügung haben (selbst wenn es nur ein DIMM ist), sollten Sie ihn austauschen und den Speichertest erneut durchführen.

Antwort2

BIOS

ASRock X570 Taichi

Das BIOS ist aktuell und in der Version P4.30.

ERINNERUNG

G Skill Trident Z Neo DDR4 – 3600 MHz 32 GB (2 x 16 GB), Produkt: F4-3600C16-16GTZNC

AMD Ryzen 9 5900X 12-Core-Prozessor

Ryzen-Prozessoren sind sehr wählerisch, was den Arbeitsspeicher angeht.

Diese DIMMs erscheinen nicht in der Liste der unterstützten Speicher, wie zu sehenHier.

memtestalle Tests bestanden.

Wenn wir uns ansehen, sudo lshw -C memorysehen wir, dass die DIMMsMaiin die falschen Steckplätze eingebaut werden. Wenn Sie 2 gleich große DIMMs verwenden, sollten diese in die Steckplätze A2 und B2 eingebaut werden. Hier ist ein Bild des Platinenlayouts und der Speichersteckplätze... entnommen aus dem Benutzerhandbuch unterHier... also überprüfen Sie dies einfach ...

Bildbeschreibung hier eingeben

Antwort3

Aufgrund des Hinweises von @heynnema konnte ich herausfinden, dass das auf meinem Computer installierte DIMM-Modell nicht in der Kompatibilitätsliste aufgeführt ist. Hier sind die befolgten Schritte:

  1. Besuchen Sie die Liste der unterstützten CPUs derASRock x570 Taichi Website. Finden Sie den Kerntyp heraus. In meinem Fall war esVermeer
  2. Ermitteln Sie das Modell der im System installierten DIMMs, indem Sie Folgendes ausführen sudo lshw -C memory(es war F4-3600C16-16GTZNC):
  3. Navigieren Sie zumListe der unterstützten Speicherfür Vermeer und sehen Sie, ob es unterstützt wird. Leider ist es nicht in der Liste! Vielleicht ist das die Ursache für die inkonsistenten Abstürze. Ich werde eine unterstützte Version von DIMMs ausprobieren, um zu sehen, ob die Abstürze erneut auftreten, und diese Antwort entsprechend aktualisieren.
 *-firmware
       description: BIOS
       vendor: American Megatrends Inc.
       physical id: 0
       version: P4.30
       date: 04/14/2021
       size: 64KiB
       capacity: 16MiB
       capabilities: pci upgrade shadowing cdboot bootselect socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int9keyboard int14serial int17printer acpi usb biosbootspecification uefi
  *-memory
       description: System Memory
       physical id: e
       slot: System board or motherboard
       size: 32GiB
     *-bank:0
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
          product: F4-3600C16-16GTZNC
          vendor: Unknown
          physical id: 0
          serial: 00000000
          slot: DIMM 0
          size: 16GiB
          width: 64 bits
          clock: 2133MHz (0.5ns)
     *-bank:1
          description: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
          product: Unknown
          vendor: Unknown
          physical id: 1
          serial: Unknown
          slot: DIMM 1
     *-bank:2
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
          product: F4-3600C16-16GTZNC
          vendor: Unknown
          physical id: 2
          serial: 00000000
          slot: DIMM 0
          size: 16GiB
          width: 64 bits
          clock: 2133MHz (0.5ns)
     *-bank:3
          description: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
          product: Unknown
          vendor: Unknown
          physical id: 3
          serial: Unknown
          slot: DIMM 1
  *-cache:0
       description: L1 cache
       physical id: 11
       slot: L1 - Cache
       size: 768KiB
       capacity: 768KiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=1
  *-cache:1
       description: L2 cache
       physical id: 12
       slot: L2 - Cache
       size: 6MiB
       capacity: 6MiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=2
  *-cache:2
       description: L3 cache
       physical id: 13
       slot: L3 - Cache
       size: 64MiB
       capacity: 64MiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=3

verwandte Informationen