커널 메시지 + 커널 메시지를 기반으로 DIMM을 교체해야 하는지 확인하는 방법

커널 메시지 + 커널 메시지를 기반으로 DIMM을 교체해야 하는지 확인하는 방법

우리는 RHEL 7.6 서버를 가지고 있으며 다음과 같은 커널 메시지를 발견했습니다.

[1065085.048872] EDAC sbridge MC0: PROCESSOR 0:406f1 TIME 1676989040 SOCKET 0 APIC 0
[1065086.052107] EDAC MC1: 0 CE memory read error on CPU_SrcID#1_Ha#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0x2ae958e offset:0xa00 grain:32 syndrome:0x0 -  area:DRAM err_code:0000:009f socket:1 ha:0 channel_mask:1 rank:0)
[1065166.234239] mce: [Hardware Error]: Machine check events logged

또한, 우리는 idrac을 보고 이것이 우리가 본 것입니다.

여기에 이미지 설명을 입력하세요

링크에서 -https://www.dell.com/support/kbdoc/en-il/000055500/vxrack-idrac-logs-the-following-event-mem0702-corlectable-memory-error-rate-exceeded-for-dimm-bank- 슬롯

우리는 다음 정보를 가지고 있습니다

원인 메모리가 작동하지 않을 수 있습니다.(해결 시나리오 참조) 이는 향후 수정 불가능한 오류가 발생할 수 있음을 나타내는 초기 표시입니다.

메모리 오류는 시스템에서 다양한 방식으로 나타날 수 있으며 시스템의 수명이나 시스템 세대에 따라 달라질 수 있습니다. 시스템 펌웨어 수준에 따라 약간의 차이가 있을 수도 있습니다. 오류 메시지는 게시물의 BIOS 메시지, iDRAC 로그, OMSA(OpenManage System Administrator) 로그, 시스템 LCD 디스플레이 또는 운영 체제 중 하나 이상에 나타날 수 있습니다.

하지만 실제 시스템의 DIMM을 교체해야 하는지 여부는 확실하지 않습니다.

다른 링크

https://www.dell.com/support/kbdoc/en-il/000177028/edac-errors-in-messages-log-in-redhat-enterprise-linux-rhel-and-poweredge

우리가 본 다른 RHEL 사례에서 -https://access.redhat.com/solutions/6961932

해결 방법 오류 코드 err_code:0101:0091은 하드웨어에서 발생합니다.

OS는 메시지 로그에서만 이를 감지하고 보고합니다.

현재 오류 메시지는 SuperMicro 및 HP 하드웨어에서 보고됩니다.

자세한 내용은 하드웨어 공급업체에 문의하는 것이 좋습니다.

그래서 나는 매우 혼란스러워요. , DIMM 카드를 교체해야 하는지 여부는 명확하지 않습니다.

여기 dmesg에서 본 추가 커널 메시지 출력이 있습니다.

[34226.902474] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
[34226.902477] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 1: 940000000000009f
[34226.902479] EDAC sbridge MC0: TSC 41a0d0c2a8a2 
[34226.902482] EDAC sbridge MC0: ADDR 3a2b80a00 
[34226.902484] EDAC sbridge MC0: MISC 0 
[34226.902486] EDAC sbridge MC0: PROCESSOR 0:406f1 TIME 1675958197 SOCKET 0 APIC 0
[34227.566735] EDAC MC0: 0 CE memory read error on CPU_SrcID#0_Ha#0_Chan#1_DIMM#1 (channel:1 slot:1 page:0x3a2b80 offset:0xa00 grain:32 syndrome:0x0 -  area:DRAM err_code:0000:009f socket:0 ha:0 channel_mask:2 rank:4)
[34239.759292] {16}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
[34239.759297] {16}[Hardware Error]: It has been corrected by h/w and requires no further action
[34239.759299] {16}[Hardware Error]: event severity: corrected
[34239.759301] {16}[Hardware Error]:  Error 0, type: corrected
[34239.759303] {16}[Hardware Error]:  fru_text: A6
[34239.759305] {16}[Hardware Error]:   section_type: memory error
[34239.759307] {16}[Hardware Error]:   error_status: 0x0000000000000400
[34239.759308] {16}[Hardware Error]:   physical_address: 0x00000009df0e0440
[34239.759319] {16}[Hardware Error]:   node: 0 card: 1 module: 1 rank: 0 bank: 3 row: 39911 column: 16 
[34239.759321] {16}[Hardware Error]:   error_type: 2, single-bit ECC
[34239.759331] mce: [Hardware Error]: Machine check events logged
[34239.759351] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
[34239.759355] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 1: 940000000000009f
[34239.759357] EDAC sbridge MC0: TSC 41a71a0719df 
[34239.759359] EDAC sbridge MC0: ADDR 9df0e0440 
[34239.759362] EDAC sbridge MC0: MISC 0 
[34239.759364] EDAC sbridge MC0: PROCESSOR 0:406f1 TIME 1675958210 SOCKET 0 APIC 0

답변1

Sun의 아주 오래된 문서에 따르면(다른 하드웨어에 대한 것이지만 제 생각에는 합리적이라고 생각됩니다) 이 오류가 하루에 두 번 이상(DIMM 하나의 경우) 표시되면 교체할 시기입니다. 그렇지 않으면 ECC가 오류를 수정하지 못하고 데이터가 손상될 위험이 있습니다.

관련 정보