Ubuntu 20.04 falla aleatoriamente en diferentes momentos. No se puede señalar un evento específico.
uname -a
Linux ubuntu 5.11.0-051100-generic #202102142330
SMP Sun Feb 14 23:33:21 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux
Se bloquea con la siguiente señal:
kernel:[19849.215258] [Hardware Error]: Uncorrected, software restartable error.
kernel:[19849.215259] [Hardware Error]: CPU:22 (19:21:0) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135
kernel:[19849.215263] [Hardware Error]: Error Addr: 0x000000076bed1c00
kernel:[19849.215264] [Hardware Error]: IPID: 0x001000b000000000
kernel:[19849.215266] [Hardware Error]: Load Store Unit Ext. Error Code: 1, An ECC error or L2 poison was detected on a data cache read by a load.
kernel:[19849.215269] [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD
Información de hardware:
### CPU
Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
Byte Order: Little Endian
Address sizes: 48 bits physical, 48 bits virtual
CPU(s): 24
On-line CPU(s) list: 0-23
Thread(s) per core: 2
Core(s) per socket: 12
Socket(s): 1
NUMA node(s): 1
Vendor ID: AuthenticAMD
CPU family: 25
Model: 33
Model name: AMD Ryzen 9 5900X 12-Core Processor
Stepping: 0
Frequency boost: enabled
CPU MHz: 2200.000
CPU max MHz: 6442.4800
CPU min MHz: 2200.0000
### Base Board Information
Manufacturer: ASRock
Product Name: X570 Taichi
### Memory:
G Skill Trident Z Neo DDR4 - 3600Mhz 32GB (2 x 16GB)
¿Cuáles son las formas sugeridas de descubrir la causa raíz? ¿Cómo habilito más registros o, si el registro ya existe, dónde puedo encontrarlos, etc. Se agradecerá cualquier orientación? ¡Gracias!
Respuesta1
esto no estécnicamenteuna respuesta, pero...
El ECC error or L2 poison was detected on a data cache read by a load
mensaje apunta a un problema de memoria, ya sea con la propia RAM o con el caché de la CPU. Ninguno de los dos es excelente, pero puedes probar la RAM del sistema con el siguiente proceso:
- Reinicie su sistema
- Mantenga presionada la Shifttecla para abrir el menú de GRUB.
- Seleccione "Ubuntu, memtest86+" y presione Enter
La prueba de memoria se ejecutará hasta el final de los tiempos o hasta que presione la Esctecla. Deje que la máquina complete al menos una prueba antes de escapar.
Residencia eninformes alrededorEn la web, este problema parece verse solo con los procesadores AMD Ryzen de gama alta. leyendoeste largo hiloen el sitio de la comunidad de AMD reveló esta parte interesante:
Reemplacé la memoria y la computadora ha estado sólida como una roca durante algunos días. Espero que esto te ayude como me ayudó a mí. La memoria anterior era la memoria Gskill de 3600 mhz... la nueva memoria es 3200 de Corsair.
Su pregunta no indica qué tipo de memoria tiene instalada pero, si se trata de un conjunto de módulos de mayor frecuencia, puede haber algo entre la RAM y la CPU que esté causando inestabilidad. Si la prueba de memoria falla y tiene disponible RAM compatible de 3200 MHz (incluso si es solo un DIMM), considere cambiarla y realizar la prueba de memoria nuevamente.
Respuesta2
BIOS
ASRock X570 Taichi
El BIOS está actualizado en la versión P4.30.
MEMORIA
G Skill Trident Z Neo DDR4 - 3600Mhz 32GB (2 x 16GB), producto: F4-3600C16-16GTZNC
Procesador AMD Ryzen 9 5900X de 12 núcleos
Los procesadores Ryzen son muy quisquillosos con la RAM.
Estos DIMM no aparecen en la lista de memoria admitida, como se veaquí.
memtest
Pasó todas las pruebas.
Cuando miramos sudo lshw -C memory
vemos que los DIMMpuedeinstalarse en ubicaciones de ranura incorrectas. Cuando utilice 2 DIMM del mismo tamaño, deben instalarse en las ranuras A2 y B2. Aquí hay una imagen del diseño de la placa y las ranuras de memoria... tomada del Manual del usuario enaquí...así que sólo verifica esto...
Respuesta3
Según la sugerencia de @heynnema, pude descubrir que el modelo de DIMM instalado en mi computadora no figura en su lista de compatibilidad. Estos son los pasos seguidos:
- Visite la lista de CPU compatibles deSitio web de ASRock x570 Taichi. Descubra el tipo de núcleo. En mi caso fue
Vermeer
- Descubra el modelo de los DIMM instalados en el sistema ejecutando
sudo lshw -C memory
(eraF4-3600C16-16GTZNC
) - Navega hasta elLista de memoria admitidapara Vermeer y ver si es compatible. ¡Desafortunadamente no está en la lista! Quizás esa sea la causa de los bloqueos inconsistentes. Probaré una versión compatible de DIMM para ver si los fallos vuelven a ocurrir y actualizaré esta respuesta en consecuencia.
*-firmware
description: BIOS
vendor: American Megatrends Inc.
physical id: 0
version: P4.30
date: 04/14/2021
size: 64KiB
capacity: 16MiB
capabilities: pci upgrade shadowing cdboot bootselect socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int9keyboard int14serial int17printer acpi usb biosbootspecification uefi
*-memory
description: System Memory
physical id: e
slot: System board or motherboard
size: 32GiB
*-bank:0
description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
product: F4-3600C16-16GTZNC
vendor: Unknown
physical id: 0
serial: 00000000
slot: DIMM 0
size: 16GiB
width: 64 bits
clock: 2133MHz (0.5ns)
*-bank:1
description: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
product: Unknown
vendor: Unknown
physical id: 1
serial: Unknown
slot: DIMM 1
*-bank:2
description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
product: F4-3600C16-16GTZNC
vendor: Unknown
physical id: 2
serial: 00000000
slot: DIMM 0
size: 16GiB
width: 64 bits
clock: 2133MHz (0.5ns)
*-bank:3
description: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
product: Unknown
vendor: Unknown
physical id: 3
serial: Unknown
slot: DIMM 1
*-cache:0
description: L1 cache
physical id: 11
slot: L1 - Cache
size: 768KiB
capacity: 768KiB
clock: 1GHz (1.0ns)
capabilities: pipeline-burst internal write-back unified
configuration: level=1
*-cache:1
description: L2 cache
physical id: 12
slot: L2 - Cache
size: 6MiB
capacity: 6MiB
clock: 1GHz (1.0ns)
capabilities: pipeline-burst internal write-back unified
configuration: level=2
*-cache:2
description: L3 cache
physical id: 13
slot: L3 - Cache
size: 64MiB
capacity: 64MiB
clock: 1GHz (1.0ns)
capabilities: pipeline-burst internal write-back unified
configuration: level=3