カーネルメッセージ + カーネルメッセージに基づいて DIMM を交換する必要があるかどうかを知る方法

2024-6-23 • tag-icon

カーネルメッセージ + カーネルメッセージに基づいて DIMM を交換する必要があるかどうかを知る方法

RHEL 7.6 サーバーを使用していますが、次のカーネルメッセージに気付きました。

[1065085.048872] EDAC sbridge MC0: PROCESSOR 0:406f1 TIME 1676989040 SOCKET 0 APIC 0
[1065086.052107] EDAC MC1: 0 CE memory read error on CPU_SrcID#1_Ha#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0x2ae958e offset:0xa00 grain:32 syndrome:0x0 -  area:DRAM err_code:0000:009f socket:1 ha:0 channel_mask:1 rank:0)
[1065166.234239] mce: [Hardware Error]: Machine check events logged

また、idracを見ると、これが私たちが見たものです

リンクから -https://www.dell.com/support/kbdoc/en-il/000055500/vxrack-idrac-logs-the-following-event-mem0702-correctable-memory-error-rate-exceeded-for-dimm-bank-slot

以下の情報があります

原因メモリが動作していない可能性があります。(解決シナリオを参照) これは、将来修正不可能なエラーが発生する可能性があることを示す早期の兆候です。

メモリエラーはシステム上でさまざまな形で表示され、システムの古さや (システム世代) によって異なる場合があります。また、システムファームウェアレベルによって若干異なる場合もあります。エラーメッセージは、POST の BIOS メッセージ、iDRAC ログ、OpenManage System Administrator (OMSA) ログ、システム LCD ディスプレイ、またはオペレーティングシステムのいずれかに表示されます。

しかし、物理マシン上の DIMM を交換する必要があるかどうかはわかりません。

その他のリンク

https://www.dell.com/support/kbdoc/en-il/000177028/edac-errors-in-messages-log-in-redhat-enterprise-linux-rhel-and-poweredge

私たちが見た他のRHELのケースから -https://access.redhat.com/solutions/6961932

解決策エラーコード err_code:0101:0091 はハードウェアからのものです。

OS はそれらを検出し、メッセージログに報告するだけです。

現在、エラーメッセージは SuperMicro および HP ハードウェアから報告されています。

詳細については、ハードウェアベンダーに問い合わせることをお勧めします。

とても混乱しています。DIMM カードを交換する必要があるかどうかもはっきりしません。

ここにdmesgから確認したカーネルメッセージ出力を追加した。

[34226.902474] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
[34226.902477] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 1: 940000000000009f
[34226.902479] EDAC sbridge MC0: TSC 41a0d0c2a8a2 
[34226.902482] EDAC sbridge MC0: ADDR 3a2b80a00 
[34226.902484] EDAC sbridge MC0: MISC 0 
[34226.902486] EDAC sbridge MC0: PROCESSOR 0:406f1 TIME 1675958197 SOCKET 0 APIC 0
[34227.566735] EDAC MC0: 0 CE memory read error on CPU_SrcID#0_Ha#0_Chan#1_DIMM#1 (channel:1 slot:1 page:0x3a2b80 offset:0xa00 grain:32 syndrome:0x0 -  area:DRAM err_code:0000:009f socket:0 ha:0 channel_mask:2 rank:4)
[34239.759292] {16}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
[34239.759297] {16}[Hardware Error]: It has been corrected by h/w and requires no further action
[34239.759299] {16}[Hardware Error]: event severity: corrected
[34239.759301] {16}[Hardware Error]:  Error 0, type: corrected
[34239.759303] {16}[Hardware Error]:  fru_text: A6
[34239.759305] {16}[Hardware Error]:   section_type: memory error
[34239.759307] {16}[Hardware Error]:   error_status: 0x0000000000000400
[34239.759308] {16}[Hardware Error]:   physical_address: 0x00000009df0e0440
[34239.759319] {16}[Hardware Error]:   node: 0 card: 1 module: 1 rank: 0 bank: 3 row: 39911 column: 16 
[34239.759321] {16}[Hardware Error]:   error_type: 2, single-bit ECC
[34239.759331] mce: [Hardware Error]: Machine check events logged
[34239.759351] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
[34239.759355] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 1: 940000000000009f
[34239.759357] EDAC sbridge MC0: TSC 41a71a0719df 
[34239.759359] EDAC sbridge MC0: ADDR 9df0e0440 
[34239.759362] EDAC sbridge MC0: MISC 0 
[34239.759364] EDAC sbridge MC0: PROCESSOR 0:406f1 TIME 1675958210 SOCKET 0 APIC 0

答え1

Sun のかなり古いドキュメント (ハードウェアは異なりますが、私にとっては妥当な内容です) によると、このエラーが 1 日に 2 回以上 (1 つの DIMM に対して) 表示される場合は、DIMM を交換する時期です。そうしないと、ECC がエラーを修正できず、データが破損するおそれがあります。

答え1

関連情報