
Estoy ejecutando el servidor ubuntu 14.04 en Supermicro X10SLM-F/Xeon E3-1271 v3
Memoria: SuperTalent 32GB DDR3 1600 ECC
Aproximadamente cada 4 días, los registros de Ubuntu mostrarán esto:
{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]: Error 0, type: corrected
{1}[Hardware Error]: fru_text: CorrectedErr
{1}[Hardware Error]: section_type: memory error
[Firmware Warn]: error section length is too small
Inmediatamente después de esto, el servidor se reinicia mediante un "ciclo de encendido".
Cuando miro en el registro de eventos del BIOS, veo esto:
DATE TIME ERROR CODE SEVERITY
06/13/15 13:13:38 Smbios 0x02 P1-DIMMB2
Y la descripción del error es:
Single Bit ECC Memory Error
ipmitool en Ubuntu muestra esto:
ipmitool sel elist
...
...
1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8
Unas cuantas preguntas:
Si la memoria ECC se autocorrige, ¿por qué la máquina se reinicia sola?
¿Quizás me falta alguna configuración en el BIOS que impida que la caja se reinicie?
¿Se trata obviamente de un problema con la tarjeta de memoria o puede ser un problema con la ranura o con la CPU?
¿Cómo evitar que el servidor se reinicie?
Gracias por cualquier consejo.
Respuesta1
El sistema no debería reiniciarse ante un error de memoria corregible. ¿Ves información/patrón adicional a través de ipmitool sel elist
? El perro guardián de BMC podría reiniciar el sistema; verifique si está habilitado a través de ipmitool mc watchdog get
. Como ya tiene la información sobre la ubicación del módulo de memoria defectuoso, reemplácelo y si el problema vuelve a manifestarse, la falla podría ser la ranura de memoria.
X10SLM-Fla RAM que utiliza no está en la lista de módulos RAM probados; si tiene la posibilidad, reemplace todas las barras de memoria en un sistema "problemático" con otras equivalentes probadas por Supermicro. Además, consulte la lista de sistemas operativos compatibles con su versión de Ubuntu.
En relación con la configuración de CMOS, puede usar Supermicro SUM
, siempre que tenga las claves SUM instaladas, para volcar la configuración del BIOS de todos los sistemas y luego vimdiff
ver si hay algún parámetro CMOS que sea diferente para los sistemas que se reinician regularmente en comparación con el sistema ( s) que no.
sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf
Respuesta2
Es hardware Supermicro, por lo que es económico y carece del pulido y la integración de Dell, HP o IBM...
La RAM ECC corrige errores, pero es probable que se supere un umbral. Es probable que el DIMM en cuestión esté fallando y debería planear reemplazarlo.
Puede intentar identificar el módulo por ranura y reemplazarlo. Dado que esto ocurre con frecuencia, será fácil determinar el problema.
Además, mira elpreguntas relacionadasal lado derecho de esta pregunta.
Respuesta3
He visto el mismo problema con esta placa, rev 1.02. Creo que tiene un problema específico. Compro muchas placas SM y normalmente son bastante buenas. Creo que hay un problema con esta placa si todos los DIMM están ocupados. Estoy usando Windows y me sale una pantalla azul, por ejemplo.
Intente ejecutar con 16 GB (solo 2 ranuras) y apuesto a que el problema desaparecerá. Sé que esto no es una solución, pero ayudaría a diagnosticar el comportamiento extraño. Incluso envié una placa a SM y me dijeron que estaba bien, tal vez no probaron con 4 DIMM.