
Tenho servidor HP (DL360-G7) e nele executo Centos7 + cPanel. em /var/log/message vejo este erro:
EDAC MC0: 5450 CE error on CPU#0Channel#1_DIMM#0 (channel:1 slot:0
Eu mudo RAMs e slots de memória no servidor, mas ainda existe erro:
EDAC MC0: 25509 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0
quando executo este comando:
grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
Eu vejo esta saída:
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:5067071
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
No painel da OIT há algum erro!
Qual é o problema?
Responder1
A partir dos registros acima, podemos dizer que os erros são erros corrigíveis, de (canal:1 slot:0 e canal:0 slot:0) significa que 2 canais têm problemas (problemas corrigíveis). Canal é um canal controlador de memória, responsável pela comunicação com um grupo de DIMMs. Cada canal possui seu próprio controle (comando) e barramento de dados independentes, podendo ser utilizado de forma independente ou agrupado com outros canais. Verifique esta páginahttps://www.kernel.org/doc/html/latest/driver-api/edac.html?highlight=edac#main-concepts-used-at-the-edac-subsystem. Se a contagem for muito alta, é melhor substituir o DIMM e verificar se há erros de hardware na placa-mãe. Às vezes, o problema não está no DIMM, pode estar na própria placa. Você pode ignorar a baixa contagem de erros de CE.