Kernel-Meldung + wie man anhand von Kernel-Meldungen erkennt, ob das DIMM ausgetauscht werden muss

Kernel-Meldung + wie man anhand von Kernel-Meldungen erkennt, ob das DIMM ausgetauscht werden muss

wir haben einen RHEL 7.6-Server und uns sind die folgenden Kernel-Meldungen aufgefallen.

[1065085.048872] EDAC sbridge MC0: PROCESSOR 0:406f1 TIME 1676989040 SOCKET 0 APIC 0
[1065086.052107] EDAC MC1: 0 CE memory read error on CPU_SrcID#1_Ha#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0x2ae958e offset:0xa00 grain:32 syndrome:0x0 -  area:DRAM err_code:0000:009f socket:1 ha:0 channel_mask:1 rank:0)
[1065166.234239] mce: [Hardware Error]: Machine check events logged

Außerdem schauen wir uns den Idrac an und das haben wir gesehen

Bildbeschreibung hier eingeben

vom Link -https://www.dell.com/support/kbdoc/en-il/000055500/vxrack-idrac-logs-the-following-event-mem0702-correctable-memory-error-rate-exceeded-for-dimm-bank-slot

Wir haben folgende Informationen

Ursache: Der Speicher ist möglicherweise nicht betriebsbereit. (Siehe Lösungsszenarien.) Dies ist ein früher Hinweis auf einen möglichen zukünftigen, nicht behebbaren Fehler.

Speicherfehler können auf Ihrem System auf verschiedene Weise angezeigt werden und können je nach Alter Ihres Systems oder (Systemgeneration) variieren. Es kann auch leichte Abweichungen je nach Firmware-Level Ihres Systems geben. Die Fehlermeldungen können in einer oder mehreren BIOS-Meldungen im Post, in iDRAC-Protokollen, in OpenManage System Administrator (OMSA)-Protokollen, auf dem System-LCD-Display oder im Betriebssystem erscheinen.

aber ich bin nicht sicher, ob das DIMM auf meiner physischen Maschine ersetzt werden muss oder nicht?

andere Links

https://www.dell.com/support/kbdoc/en-il/000177028/edac-errors-in-messages-log-in-redhat-enterprise-linux-rhel-and-poweredge

aus anderen RHEL-Fällen haben wir gesehen -https://access.redhat.com/solutions/6961932

Lösung: Der Fehlercode „err_code:0101:0091“ stammt von der Hardware.

Das Betriebssystem erkennt und meldet sie nur im Nachrichtenprotokoll.

Derzeit werden die Fehlermeldungen von SuperMicro- und HP-Hardware gemeldet.

Es wird empfohlen, sich für weitere Informationen an den Hardwareanbieter zu wenden.

Ich bin also sehr verwirrt und weiß nicht genau, ob wir die DIMM-Karten ersetzen müssen.

hier weitere Kernel-Meldungen, die wir von dmesg gesehen haben

[34226.902474] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
[34226.902477] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 1: 940000000000009f
[34226.902479] EDAC sbridge MC0: TSC 41a0d0c2a8a2 
[34226.902482] EDAC sbridge MC0: ADDR 3a2b80a00 
[34226.902484] EDAC sbridge MC0: MISC 0 
[34226.902486] EDAC sbridge MC0: PROCESSOR 0:406f1 TIME 1675958197 SOCKET 0 APIC 0
[34227.566735] EDAC MC0: 0 CE memory read error on CPU_SrcID#0_Ha#0_Chan#1_DIMM#1 (channel:1 slot:1 page:0x3a2b80 offset:0xa00 grain:32 syndrome:0x0 -  area:DRAM err_code:0000:009f socket:0 ha:0 channel_mask:2 rank:4)
[34239.759292] {16}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
[34239.759297] {16}[Hardware Error]: It has been corrected by h/w and requires no further action
[34239.759299] {16}[Hardware Error]: event severity: corrected
[34239.759301] {16}[Hardware Error]:  Error 0, type: corrected
[34239.759303] {16}[Hardware Error]:  fru_text: A6
[34239.759305] {16}[Hardware Error]:   section_type: memory error
[34239.759307] {16}[Hardware Error]:   error_status: 0x0000000000000400
[34239.759308] {16}[Hardware Error]:   physical_address: 0x00000009df0e0440
[34239.759319] {16}[Hardware Error]:   node: 0 card: 1 module: 1 rank: 0 bank: 3 row: 39911 column: 16 
[34239.759321] {16}[Hardware Error]:   error_type: 2, single-bit ECC
[34239.759331] mce: [Hardware Error]: Machine check events logged
[34239.759351] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
[34239.759355] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 1: 940000000000009f
[34239.759357] EDAC sbridge MC0: TSC 41a71a0719df 
[34239.759359] EDAC sbridge MC0: ADDR 9df0e0440 
[34239.759362] EDAC sbridge MC0: MISC 0 
[34239.759364] EDAC sbridge MC0: PROCESSOR 0:406f1 TIME 1675958210 SOCKET 0 APIC 0

Antwort1

Laut einer recht alten Dokumentation von Sun (für andere Hardware, klingt für mich aber plausibel) ist es an der Zeit, das DIMM auszutauschen, wenn dieser Fehler mehr als zweimal pro Tag auftritt (für ein DIMM). Andernfalls besteht das Risiko, dass ECC die Fehler nicht beheben kann und Ihre Daten beschädigt werden.

verwandte Informationen