Ubuntu 20.04 falla: se detectó un error ECC o veneno L2

Ubuntu 20.04 falla: se detectó un error ECC o veneno L2

Ubuntu 20.04 falla aleatoriamente en diferentes momentos. No se puede señalar un evento específico.

uname -a 
Linux ubuntu 5.11.0-051100-generic #202102142330 
SMP Sun Feb 14 23:33:21 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux

Se bloquea con la siguiente señal:

 kernel:[19849.215258] [Hardware Error]: Uncorrected, software restartable error.

 kernel:[19849.215259] [Hardware Error]: CPU:22 (19:21:0) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135

 kernel:[19849.215263] [Hardware Error]: Error Addr: 0x000000076bed1c00

 kernel:[19849.215264] [Hardware Error]: IPID: 0x001000b000000000

 kernel:[19849.215266] [Hardware Error]: Load Store Unit Ext. Error Code: 1, An ECC error or L2 poison was detected on a data cache read by a load.

 kernel:[19849.215269] [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD

Información de hardware:

### CPU
  Architecture:                    x86_64
  CPU op-mode(s):                  32-bit, 64-bit
  Byte Order:                      Little Endian
  Address sizes:                   48 bits physical, 48 bits virtual
  CPU(s):                          24
  On-line CPU(s) list:             0-23
  Thread(s) per core:              2
  Core(s) per socket:              12
  Socket(s):                       1
  NUMA node(s):                    1
  Vendor ID:                       AuthenticAMD
  CPU family:                      25
  Model:                           33
  Model name:                      AMD Ryzen 9 5900X 12-Core Processor
  Stepping:                        0
  Frequency boost:                 enabled
  CPU MHz:                         2200.000
  CPU max MHz:                     6442.4800
  CPU min MHz:                     2200.0000

### Base Board Information
  Manufacturer: ASRock
  Product Name: X570 Taichi

### Memory:
G Skill Trident Z Neo DDR4 - 3600Mhz 32GB (2 x 16GB)

¿Cuáles son las formas sugeridas de descubrir la causa raíz? ¿Cómo habilito más registros o, si el registro ya existe, dónde puedo encontrarlos, etc. Se agradecerá cualquier orientación? ¡Gracias!

Respuesta1

esto no estécnicamenteuna respuesta, pero...

El ECC error or L2 poison was detected on a data cache read by a loadmensaje apunta a un problema de memoria, ya sea con la propia RAM o con el caché de la CPU. Ninguno de los dos es excelente, pero puedes probar la RAM del sistema con el siguiente proceso:

  1. Reinicie su sistema
  2. Mantenga presionada la Shifttecla para abrir el menú de GRUB.
  3. Seleccione "Ubuntu, memtest86+" y presione Enter
    La prueba de memoria se ejecutará hasta el final de los tiempos o hasta que presione la Esctecla. Deje que la máquina complete al menos una prueba antes de escapar.

Residencia eninformes alrededorEn la web, este problema parece verse solo con los procesadores AMD Ryzen de gama alta. leyendoeste largo hiloen el sitio de la comunidad de AMD reveló esta parte interesante:

Reemplacé la memoria y la computadora ha estado sólida como una roca durante algunos días. Espero que esto te ayude como me ayudó a mí. La memoria anterior era la memoria Gskill de 3600 mhz... la nueva memoria es 3200 de Corsair.

Su pregunta no indica qué tipo de memoria tiene instalada pero, si se trata de un conjunto de módulos de mayor frecuencia, puede haber algo entre la RAM y la CPU que esté causando inestabilidad. Si la prueba de memoria falla y tiene disponible RAM compatible de 3200 MHz (incluso si es solo un DIMM), considere cambiarla y realizar la prueba de memoria nuevamente.

Respuesta2

BIOS

ASRock X570 Taichi

El BIOS está actualizado en la versión P4.30.

MEMORIA

G Skill Trident Z Neo DDR4 - 3600Mhz 32GB (2 x 16GB), producto: F4-3600C16-16GTZNC

Procesador AMD Ryzen 9 5900X de 12 núcleos

Los procesadores Ryzen son muy quisquillosos con la RAM.

Estos DIMM no aparecen en la lista de memoria admitida, como se veaquí.

memtestPasó todas las pruebas.

Cuando miramos sudo lshw -C memoryvemos que los DIMMpuedeinstalarse en ubicaciones de ranura incorrectas. Cuando utilice 2 DIMM del mismo tamaño, deben instalarse en las ranuras A2 y B2. Aquí hay una imagen del diseño de la placa y las ranuras de memoria... tomada del Manual del usuario enaquí...así que sólo verifica esto...

ingrese la descripción de la imagen aquí

Respuesta3

Según la sugerencia de @heynnema, pude descubrir que el modelo de DIMM instalado en mi computadora no figura en su lista de compatibilidad. Estos son los pasos seguidos:

  1. Visite la lista de CPU compatibles deSitio web de ASRock x570 Taichi. Descubra el tipo de núcleo. En mi caso fueVermeer
  2. Descubra el modelo de los DIMM instalados en el sistema ejecutando sudo lshw -C memory(era F4-3600C16-16GTZNC)
  3. Navega hasta elLista de memoria admitidapara Vermeer y ver si es compatible. ¡Desafortunadamente no está en la lista! Quizás esa sea la causa de los bloqueos inconsistentes. Probaré una versión compatible de DIMM para ver si los fallos vuelven a ocurrir y actualizaré esta respuesta en consecuencia.
 *-firmware
       description: BIOS
       vendor: American Megatrends Inc.
       physical id: 0
       version: P4.30
       date: 04/14/2021
       size: 64KiB
       capacity: 16MiB
       capabilities: pci upgrade shadowing cdboot bootselect socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int9keyboard int14serial int17printer acpi usb biosbootspecification uefi
  *-memory
       description: System Memory
       physical id: e
       slot: System board or motherboard
       size: 32GiB
     *-bank:0
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
          product: F4-3600C16-16GTZNC
          vendor: Unknown
          physical id: 0
          serial: 00000000
          slot: DIMM 0
          size: 16GiB
          width: 64 bits
          clock: 2133MHz (0.5ns)
     *-bank:1
          description: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
          product: Unknown
          vendor: Unknown
          physical id: 1
          serial: Unknown
          slot: DIMM 1
     *-bank:2
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
          product: F4-3600C16-16GTZNC
          vendor: Unknown
          physical id: 2
          serial: 00000000
          slot: DIMM 0
          size: 16GiB
          width: 64 bits
          clock: 2133MHz (0.5ns)
     *-bank:3
          description: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
          product: Unknown
          vendor: Unknown
          physical id: 3
          serial: Unknown
          slot: DIMM 1
  *-cache:0
       description: L1 cache
       physical id: 11
       slot: L1 - Cache
       size: 768KiB
       capacity: 768KiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=1
  *-cache:1
       description: L2 cache
       physical id: 12
       slot: L2 - Cache
       size: 6MiB
       capacity: 6MiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=2
  *-cache:2
       description: L3 cache
       physical id: 13
       slot: L3 - Cache
       size: 64MiB
       capacity: 64MiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=3

información relacionada