
У меня есть сервер HP (DL360-G7) и на нем запущены Centos7 + cPanel. В /var/log/message я вижу такую ошибку:
EDAC MC0: 5450 CE error on CPU#0Channel#1_DIMM#0 (channel:1 slot:0
Я меняю оперативную память и слоты памяти на сервере, но ошибка все еще существует:
EDAC MC0: 25509 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0
когда я запускаю эту команду:
grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
Я вижу такой вывод:
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:5067071
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
В панели МОТ нет ни одной ошибки!
В чем проблема?
решение1
Из приведенных выше журналов можно сказать, что ошибки являются исправимыми ошибками, из (канал:1 слот:0 и канал:0 слот:0) означает, что 2 канала имеют проблемы (исправимые проблемы). Канал — это канал контроллера памяти, отвечающий за связь с группой модулей DIMM. Каждый канал имеет свое собственное независимое управление (команду) и шину данных и может использоваться независимо или в группе с другими каналами. Проверьте эту страницуhttps://www.kernel.org/doc/html/latest/driver-api/edac.html?highlight=edac#main-concepts-used-at-the-edac-subsystem. Если счетчик слишком большой, лучше заменить DIMM и проверить материнскую плату на наличие аппаратных ошибок, иногда проблема не в DIMM, а в самой плате. Вы можете игнорировать небольшое количество ошибок CE.