"Erro Northbridge (nó 0): Erro ECC no diretório do filtro de sonda"

"Erro Northbridge (nó 0): Erro ECC no diretório do filtro de sonda"

Recebi um e-mail de um usuário preocupado porque os seguintes erros em um de seus servidores são indicativos de um problema sério. O problema é que os erros abaixo sãotodosque eu tenho que continuar. Geralmente me considero um Googler decente, mas neste caso só consigo encontrarumoutro incidente em que os usuários encontraram este erro em relação ao "diretório de filtro de sonda":

[1044 snapshots @ abc]$
Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: CPU:0 
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]:       MC4_ADDR: 0x0000000000010f40

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the 
Probe Filter directory.

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN

Pelo que posso dizer, isso só aconteceu uma vez. Pesquisar os logs em busca de outros erros de hardware não revela nada além deste incidente.

A postagem no fórum à qual me referi acima simplesmente termina basicamente dizendo ao usuário para não se preocupar com isso se isso aconteceu apenas uma vez e não causou nenhum problema fatal. Este é o mesmo conselho que recebi dos meus colegas, que também mencionaram que existem muitas variáveis ​​(ou seja, o que estava acontecendo às 2h50 do dia 8 de setembro?).

No entanto, este usuário deseja ter certeza de que algo não está errado com seu sistema. O que os erros acima podem indicar ou estar relacionados? O que é o "diretório do filtro de sonda?" Que testes posso executar para deixar o usuário tranquilo, pois isso não sinaliza sua máquina para uma destruição iminente?

A distribuição Linux da máquina é o Red Hat Enterprise Linux Server versão 6.4 (Santiago).

Responder1

Não tenho uma resposta precisa, mas parte disso é familiar. Não sei o que é um diretório Probe Filter, mas CptSupermrkt explicou isso acima.

No PCI, um Northbridge se conecta à memória e ao processador. Erros ECC estão associados à DRAM. Existem bits de código de correção de erros armazenados junto com cada palavra. Nas leituras, eles são verificados, nas gravações, são atualizados. Os erros ECC são corrigíveis ou incorrigíveis, o que indica a capacidade de corrigir um erro usando os bits escritos. Incorrigível não indica que há um erro permanente de hardware. Isso pode acontecer quando a DRAM começa a falhar.

Considerando tudo isso, isso parece um erro transitório. Você pode tentar um teste de memória completo, mas provavelmente não encontrará nada. Se a DRAM falhar, sua única ação corretiva será substituí-la.

informação relacionada