Errores de memoria ECC que provocan reinicios aleatorios del servidor

Question 1

El sistema no debería reiniciarse ante un error de memoria corregible. ¿Ves información/patrón adicional a través de ipmitool sel elist? El perro guardián de BMC podría reiniciar el sistema; verifique si está habilitado a través de ipmitool mc watchdog get. Como ya tiene la información sobre la ubicación del módulo de memoria defectuoso, reemplácelo y si el problema vuelve a manifestarse, la falla podría ser la ranura de memoria.

X10SLM-Fla RAM que utiliza no está en la lista de módulos RAM probados; si tiene la posibilidad, reemplace todas las barras de memoria en un sistema "problemático" con otras equivalentes probadas por Supermicro. Además, consulte la lista de sistemas operativos compatibles con su versión de Ubuntu.

En relación con la configuración de CMOS, puede usar Supermicro SUM, siempre que tenga las claves SUM instaladas, para volcar la configuración del BIOS de todos los sistemas y luego vimdiffver si hay algún parámetro CMOS que sea diferente para los sistemas que se reinician regularmente en comparación con el sistema ( s) que no.

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf

Answer

El sistema no debería reiniciarse ante un error de memoria corregible. ¿Ves información/patrón adicional a través de ipmitool sel elist? El perro guardián de BMC podría reiniciar el sistema; verifique si está habilitado a través de ipmitool mc watchdog get. Como ya tiene la información sobre la ubicación del módulo de memoria defectuoso, reemplácelo y si el problema vuelve a manifestarse, la falla podría ser la ranura de memoria.

X10SLM-Fla RAM que utiliza no está en la lista de módulos RAM probados; si tiene la posibilidad, reemplace todas las barras de memoria en un sistema "problemático" con otras equivalentes probadas por Supermicro. Además, consulte la lista de sistemas operativos compatibles con su versión de Ubuntu.

En relación con la configuración de CMOS, puede usar Supermicro SUM, siempre que tenga las claves SUM instaladas, para volcar la configuración del BIOS de todos los sistemas y luego vimdiffver si hay algún parámetro CMOS que sea diferente para los sistemas que se reinician regularmente en comparación con el sistema ( s) que no.

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf

Question 2

Es hardware Supermicro, por lo que es económico y carece del pulido y la integración de Dell, HP o IBM...

La RAM ECC corrige errores, pero es probable que se supere un umbral. Es probable que el DIMM en cuestión esté fallando y debería planear reemplazarlo.

Puede intentar identificar el módulo por ranura y reemplazarlo. Dado que esto ocurre con frecuencia, será fácil determinar el problema.

Además, mira elpreguntas relacionadasal lado derecho de esta pregunta.

Answer

Es hardware Supermicro, por lo que es económico y carece del pulido y la integración de Dell, HP o IBM...

La RAM ECC corrige errores, pero es probable que se supere un umbral. Es probable que el DIMM en cuestión esté fallando y debería planear reemplazarlo.

Puede intentar identificar el módulo por ranura y reemplazarlo. Dado que esto ocurre con frecuencia, será fácil determinar el problema.

Además, mira elpreguntas relacionadasal lado derecho de esta pregunta.

Question 3

He visto el mismo problema con esta placa, rev 1.02. Creo que tiene un problema específico. Compro muchas placas SM y normalmente son bastante buenas. Creo que hay un problema con esta placa si todos los DIMM están ocupados. Estoy usando Windows y me sale una pantalla azul, por ejemplo.

Intente ejecutar con 16 GB (solo 2 ranuras) y apuesto a que el problema desaparecerá. Sé que esto no es una solución, pero ayudaría a diagnosticar el comportamiento extraño. Incluso envié una placa a SM y me dijeron que estaba bien, tal vez no probaron con 4 DIMM.

Answer

He visto el mismo problema con esta placa, rev 1.02. Creo que tiene un problema específico. Compro muchas placas SM y normalmente son bastante buenas. Creo que hay un problema con esta placa si todos los DIMM están ocupados. Estoy usando Windows y me sale una pantalla azul, por ejemplo.

Intente ejecutar con 16 GB (solo 2 ranuras) y apuesto a que el problema desaparecerá. Sé que esto no es una solución, pero ayudaría a diagnosticar el comportamiento extraño. Incluso envié una placa a SM y me dijeron que estaba bien, tal vez no probaron con 4 DIMM.

Errores de memoria ECC que provocan reinicios aleatorios del servidor

Respuesta1

Respuesta2

Respuesta3

información relacionada