mensagem do kernel + como saber se precisamos substituir o DIMM com base nas mensagens do kernel

mensagem do kernel + como saber se precisamos substituir o DIMM com base nas mensagens do kernel

temos o servidor RHEL 7.6 e notamos as seguintes mensagens do kernel.

[1065085.048872] EDAC sbridge MC0: PROCESSOR 0:406f1 TIME 1676989040 SOCKET 0 APIC 0
[1065086.052107] EDAC MC1: 0 CE memory read error on CPU_SrcID#1_Ha#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0x2ae958e offset:0xa00 grain:32 syndrome:0x0 -  area:DRAM err_code:0000:009f socket:1 ha:0 channel_mask:1 rank:0)
[1065166.234239] mce: [Hardware Error]: Machine check events logged

também olhamos para o idrac e foi isso que vimos

insira a descrição da imagem aqui

do link -https://www.dell.com/support/kbdoc/en-il/000055500/vxrack-idrac-logs-the-following-event-mem0702-correctable-memory-error-rate-exceeded-for-dimm-bank- slot

temos as seguintes informações

Causa A memória pode não estar operacional. (Consulte Cenários de resolução) Este é um indicador precoce de um possível erro futuro incorrigível.

Os erros de memória podem aparecer de várias maneiras no seu sistema e podem variar dependendo da idade do seu sistema ou (geração do sistema). Também pode haver pequenas variações com base nos níveis de firmware do sistema. As mensagens de erro podem aparecer em uma ou mais mensagens do BIOS na postagem, nos logs do iDRAC, nos logs do OpenManage System Administrator (OMSA), na tela LCD do sistema ou no sistema operacional.

mas não tenho certeza se o DIMM da minha máquina física precisa ser substituído ou não?

outros links

https://www.dell.com/support/kbdoc/en-il/000177028/edac-errors-in-messages-log-in-redhat-enterprise-linux-rhel-and-poweredge

de outro caso RHEL que vimos -https://access.redhat.com/solutions/6961932

Resolução O código de erro err_code:0101:0091 é proveniente do hardware.

O sistema operacional apenas os detecta e relata no log de mensagens.

Atualmente, as mensagens de erro são relatadas pelo hardware SuperMicro e HP.

Recomenda-se entrar em contato com o fornecedor do hardware para obter mais informações.

então estou muito confuso. , e não está claro se precisamos substituir as placas DIMM.

aqui estão as mensagens adicionais do kernel que vimos no dmesg

[34226.902474] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
[34226.902477] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 1: 940000000000009f
[34226.902479] EDAC sbridge MC0: TSC 41a0d0c2a8a2 
[34226.902482] EDAC sbridge MC0: ADDR 3a2b80a00 
[34226.902484] EDAC sbridge MC0: MISC 0 
[34226.902486] EDAC sbridge MC0: PROCESSOR 0:406f1 TIME 1675958197 SOCKET 0 APIC 0
[34227.566735] EDAC MC0: 0 CE memory read error on CPU_SrcID#0_Ha#0_Chan#1_DIMM#1 (channel:1 slot:1 page:0x3a2b80 offset:0xa00 grain:32 syndrome:0x0 -  area:DRAM err_code:0000:009f socket:0 ha:0 channel_mask:2 rank:4)
[34239.759292] {16}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
[34239.759297] {16}[Hardware Error]: It has been corrected by h/w and requires no further action
[34239.759299] {16}[Hardware Error]: event severity: corrected
[34239.759301] {16}[Hardware Error]:  Error 0, type: corrected
[34239.759303] {16}[Hardware Error]:  fru_text: A6
[34239.759305] {16}[Hardware Error]:   section_type: memory error
[34239.759307] {16}[Hardware Error]:   error_status: 0x0000000000000400
[34239.759308] {16}[Hardware Error]:   physical_address: 0x00000009df0e0440
[34239.759319] {16}[Hardware Error]:   node: 0 card: 1 module: 1 rank: 0 bank: 3 row: 39911 column: 16 
[34239.759321] {16}[Hardware Error]:   error_type: 2, single-bit ECC
[34239.759331] mce: [Hardware Error]: Machine check events logged
[34239.759351] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
[34239.759355] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 1: 940000000000009f
[34239.759357] EDAC sbridge MC0: TSC 41a71a0719df 
[34239.759359] EDAC sbridge MC0: ADDR 9df0e0440 
[34239.759362] EDAC sbridge MC0: MISC 0 
[34239.759364] EDAC sbridge MC0: PROCESSOR 0:406f1 TIME 1675958210 SOCKET 0 APIC 0

Responder1

De acordo com uma documentação bastante antiga da Sun (para hardware diferente, mas parece razoável para mim), se você vir esse erro mais de duas vezes por dia (para um DIMM), é hora de substituí-lo. Caso contrário, você corre o risco de o ECC não conseguir corrigir os erros e seus dados serão corrompidos.

informação relacionada