у нас есть сервер RHEL 7.6, и мы заметили следующие сообщения ядра.
[1065085.048872] EDAC sbridge MC0: PROCESSOR 0:406f1 TIME 1676989040 SOCKET 0 APIC 0
[1065086.052107] EDAC MC1: 0 CE memory read error on CPU_SrcID#1_Ha#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0x2ae958e offset:0xa00 grain:32 syndrome:0x0 - area:DRAM err_code:0000:009f socket:1 ha:0 channel_mask:1 rank:0)
[1065166.234239] mce: [Hardware Error]: Machine check events logged
также, мы смотрим на идрака и вот что мы увидели
у нас есть следующая информация
Причина Память может быть неработоспособна. (См. Сценарии разрешения) Это ранний признак возможной будущей неисправимой ошибки.
Ошибки памяти могут отображаться в вашей системе несколькими способами и могут различаться в зависимости от возраста вашей системы или (поколения системы). Также могут быть небольшие различия в зависимости от уровней прошивки вашей системы. Сообщения об ошибках могут отображаться в одном или нескольких сообщениях BIOS на почте, журналах iDRAC, журналах OpenManage System Administrator (OMSA), на ЖК-дисплее системы или в операционной системе.
но я не уверен, нужно ли заменять модули DIMM на моем физическом компьютере или нет?
другие ссылки
из другого случая RHEL, который мы видели -https://access.redhat.com/solutions/6961932
Разрешение Код ошибки err_code:0101:0091 связан с оборудованием.
Операционная система только обнаруживает их и сообщает о них в журнале сообщений.
В настоящее время сообщения об ошибках поступают от оборудования SuperMicro и HP.
Для получения дополнительной информации рекомендуется обратиться к поставщику оборудования.
поэтому я очень запутался. и не ясно, нужно ли нам заменять карты DIMM.
вот дополнительный вывод сообщений ядра, который мы увидели из dmesg
[34226.902474] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
[34226.902477] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 1: 940000000000009f
[34226.902479] EDAC sbridge MC0: TSC 41a0d0c2a8a2
[34226.902482] EDAC sbridge MC0: ADDR 3a2b80a00
[34226.902484] EDAC sbridge MC0: MISC 0
[34226.902486] EDAC sbridge MC0: PROCESSOR 0:406f1 TIME 1675958197 SOCKET 0 APIC 0
[34227.566735] EDAC MC0: 0 CE memory read error on CPU_SrcID#0_Ha#0_Chan#1_DIMM#1 (channel:1 slot:1 page:0x3a2b80 offset:0xa00 grain:32 syndrome:0x0 - area:DRAM err_code:0000:009f socket:0 ha:0 channel_mask:2 rank:4)
[34239.759292] {16}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
[34239.759297] {16}[Hardware Error]: It has been corrected by h/w and requires no further action
[34239.759299] {16}[Hardware Error]: event severity: corrected
[34239.759301] {16}[Hardware Error]: Error 0, type: corrected
[34239.759303] {16}[Hardware Error]: fru_text: A6
[34239.759305] {16}[Hardware Error]: section_type: memory error
[34239.759307] {16}[Hardware Error]: error_status: 0x0000000000000400
[34239.759308] {16}[Hardware Error]: physical_address: 0x00000009df0e0440
[34239.759319] {16}[Hardware Error]: node: 0 card: 1 module: 1 rank: 0 bank: 3 row: 39911 column: 16
[34239.759321] {16}[Hardware Error]: error_type: 2, single-bit ECC
[34239.759331] mce: [Hardware Error]: Machine check events logged
[34239.759351] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
[34239.759355] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 1: 940000000000009f
[34239.759357] EDAC sbridge MC0: TSC 41a71a0719df
[34239.759359] EDAC sbridge MC0: ADDR 9df0e0440
[34239.759362] EDAC sbridge MC0: MISC 0
[34239.759364] EDAC sbridge MC0: PROCESSOR 0:406f1 TIME 1675958210 SOCKET 0 APIC 0
решение1
Согласно одной довольно старой документации от Sun (для другого оборудования, но звучит разумно для меня), если вы видите эту ошибку чаще двух раз в день (для одного DIMM), его пора заменить. В противном случае вы рискуете, что ECC не сможет исправить ошибки, и ваши данные будут повреждены.