mensaje del kernel + cómo saber si necesitamos reemplazar el DIMM según los mensajes del kernel

mensaje del kernel + cómo saber si necesitamos reemplazar el DIMM según los mensajes del kernel

Tenemos el servidor RHEL 7.6 y notamos los siguientes mensajes del kernel.

[1065085.048872] EDAC sbridge MC0: PROCESSOR 0:406f1 TIME 1676989040 SOCKET 0 APIC 0
[1065086.052107] EDAC MC1: 0 CE memory read error on CPU_SrcID#1_Ha#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0x2ae958e offset:0xa00 grain:32 syndrome:0x0 -  area:DRAM err_code:0000:009f socket:1 ha:0 channel_mask:1 rank:0)
[1065166.234239] mce: [Hardware Error]: Machine check events logged

También miramos el idrac y esto es lo que vimos.

ingrese la descripción de la imagen aquí

desde el enlace -https://www.dell.com/support/kbdoc/en-il/000055500/vxrack-idrac-logs-the-following-event-mem0702-correctable-memory-error-rate-exceeded-for-dimm-bank- ranura

tenemos la siguiente información

Causa Es posible que la memoria no esté operativa (consulte Escenarios de resolución). Este es un indicador temprano de un posible error futuro incorregible.

Los errores de memoria pueden aparecer de varias maneras en su sistema y pueden variar según la antigüedad de su sistema o (generación del sistema). También puede haber ligeras variaciones según los niveles de firmware de su sistema. Los mensajes de error pueden aparecer en uno o más mensajes del BIOS en la publicación, registros de iDRAC, registros de OpenManage System Administrator (OMSA), pantalla LCD del sistema o en el sistema operativo.

pero no estoy seguro de si es necesario reemplazar el DIMM de mi máquina física o no.

otros enlaces

https://www.dell.com/support/kbdoc/en-il/000177028/edac-errors-in-messages-log-in-redhat-enterprise-linux-rhel-and-poweredge

de otro caso de RHEL que vimos -https://access.redhat.com/solutions/6961932

Resolución El código de error err_code:0101:0091 proviene del hardware.

El sistema operativo solo los detecta y los informa en el registro de mensajes.

Actualmente, los mensajes de error provienen del hardware SuperMicro y HP.

Se recomienda ponerse en contacto con el proveedor de hardware para obtener más información.

entonces estoy muy confundido. , y no queda claro si necesitamos sustituir las tarjetas DIMM.

Aquí aparecen mensajes adicionales del kernel que vimos en dmesg.

[34226.902474] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
[34226.902477] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 1: 940000000000009f
[34226.902479] EDAC sbridge MC0: TSC 41a0d0c2a8a2 
[34226.902482] EDAC sbridge MC0: ADDR 3a2b80a00 
[34226.902484] EDAC sbridge MC0: MISC 0 
[34226.902486] EDAC sbridge MC0: PROCESSOR 0:406f1 TIME 1675958197 SOCKET 0 APIC 0
[34227.566735] EDAC MC0: 0 CE memory read error on CPU_SrcID#0_Ha#0_Chan#1_DIMM#1 (channel:1 slot:1 page:0x3a2b80 offset:0xa00 grain:32 syndrome:0x0 -  area:DRAM err_code:0000:009f socket:0 ha:0 channel_mask:2 rank:4)
[34239.759292] {16}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
[34239.759297] {16}[Hardware Error]: It has been corrected by h/w and requires no further action
[34239.759299] {16}[Hardware Error]: event severity: corrected
[34239.759301] {16}[Hardware Error]:  Error 0, type: corrected
[34239.759303] {16}[Hardware Error]:  fru_text: A6
[34239.759305] {16}[Hardware Error]:   section_type: memory error
[34239.759307] {16}[Hardware Error]:   error_status: 0x0000000000000400
[34239.759308] {16}[Hardware Error]:   physical_address: 0x00000009df0e0440
[34239.759319] {16}[Hardware Error]:   node: 0 card: 1 module: 1 rank: 0 bank: 3 row: 39911 column: 16 
[34239.759321] {16}[Hardware Error]:   error_type: 2, single-bit ECC
[34239.759331] mce: [Hardware Error]: Machine check events logged
[34239.759351] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
[34239.759355] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 1: 940000000000009f
[34239.759357] EDAC sbridge MC0: TSC 41a71a0719df 
[34239.759359] EDAC sbridge MC0: ADDR 9df0e0440 
[34239.759362] EDAC sbridge MC0: MISC 0 
[34239.759364] EDAC sbridge MC0: PROCESSOR 0:406f1 TIME 1675958210 SOCKET 0 APIC 0

Respuesta1

Según una documentación bastante antigua de Sun (para hardware diferente, pero a mí me parece razonable), si ve este error más de dos veces al día (para un DIMM), es hora de reemplazarlo. De lo contrario, corre el riesgo de que ECC no pueda corregir los errores y corromperá sus datos.

información relacionada