"Error de Northbridge (nodo 0): Error de ECC en el directorio del filtro de sonda"

"Error de Northbridge (nodo 0): Error de ECC en el directorio del filtro de sonda"

Recibí un correo electrónico de un usuario preocupado porque los siguientes errores en uno de sus servidores son indicativos de un problema grave. El problema es que los errores siguientes sontodoque tengo que seguir. Normalmente me considero un Googler decente, pero en este caso sólo puedo encontrarunootro incidente en el que los usuarios encontraron este error con respecto al "directorio de filtro de sonda":

[1044 snapshots @ abc]$
Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: CPU:0 
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]:       MC4_ADDR: 0x0000000000010f40

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the 
Probe Filter directory.

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN

Por lo que puedo decir, esto sólo sucedió una vez. Al buscar en los registros otros errores de hardware no se encuentra nada más que este incidente.

La publicación del foro a la que hago referencia anteriormente simplemente termina básicamente diciéndole al usuario que no se preocupe si solo sucedió una vez y no causó ningún problema fatal. Este es el mismo consejo que recibí de mis colegas, quienes también mencionaron que hay demasiadas variables (es decir, ¿qué se estaba ejecutando a las 2:50 am del 8 de septiembre?).

Sin embargo, este usuario quiere estar seguro de que no hay ningún problema con su sistema. ¿Con qué pueden indicar o estar relacionados los errores anteriores? ¿Qué es el "directorio de filtro de sonda"? ¿Qué pruebas puedo ejecutar para que el usuario se sienta tranquilo y sepa que esto no indica que su máquina está en peligro de extinción?

La distribución de Linux de la máquina es Red Hat Enterprise Linux Server versión 6.4 (Santiago).

Respuesta1

No tengo una respuesta precisa, pero algo de esto me resulta familiar. No sé qué es un directorio de filtro de sonda, pero CptSupermrkt lo explicó anteriormente.

En PCI, un Northbridge se conecta a la memoria y al procesador. Los errores de ECC están asociados con la DRAM. Hay bits de código de corrección de errores almacenados junto con cada palabra. En las lecturas se verifican y en las escrituras se actualizan. Los errores ECC son corregibles o incorregibles, lo que indica la capacidad de corregir un error utilizando los bits escritos. Incorregible no indica que haya un error permanente de hardware. Esto puede suceder cuando la DRAM comienza a fallar.

Teniendo en cuenta todo esto, esto parece un error transitorio. Podrías intentar una prueba de memoria completa, pero es probable que no encuentres nada. Si la DRAM ha fallado, su única acción correctiva es reemplazarla.

información relacionada