Errores de memoria ECC que provocan reinicios aleatorios del servidor

Errores de memoria ECC que provocan reinicios aleatorios del servidor

Estoy ejecutando el servidor ubuntu 14.04 en Supermicro X10SLM-F/Xeon E3-1271 v3

Memoria: SuperTalent 32GB DDR3 1600 ECC

Aproximadamente cada 4 días, los registros de Ubuntu mostrarán esto:

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:  fru_text: CorrectedErr
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

Inmediatamente después de esto, el servidor se reinicia mediante un "ciclo de encendido".

Cuando miro en el registro de eventos del BIOS, veo esto:

DATE            TIME           ERROR CODE      SEVERITY
06/13/15      13:13:38      Smbios 0x02         P1-DIMMB2

Y la descripción del error es:

Single Bit ECC Memory Error

ipmitool en Ubuntu muestra esto:

ipmitool sel elist
...
...
  1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
  1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8

Unas cuantas preguntas:

  1. Si la memoria ECC se autocorrige, ¿por qué la máquina se reinicia sola?

  2. ¿Quizás me falta alguna configuración en el BIOS que impida que la caja se reinicie?

  3. ¿Se trata obviamente de un problema con la tarjeta de memoria o puede ser un problema con la ranura o con la CPU?

  4. ¿Cómo evitar que el servidor se reinicie?

Gracias por cualquier consejo.

Respuesta1

El sistema no debería reiniciarse ante un error de memoria corregible. ¿Ves información/patrón adicional a través de ipmitool sel elist? El perro guardián de BMC podría reiniciar el sistema; verifique si está habilitado a través de ipmitool mc watchdog get. Como ya tiene la información sobre la ubicación del módulo de memoria defectuoso, reemplácelo y si el problema vuelve a manifestarse, la falla podría ser la ranura de memoria.

X10SLM-Fla RAM que utiliza no está en la lista de módulos RAM probados; si tiene la posibilidad, reemplace todas las barras de memoria en un sistema "problemático" con otras equivalentes probadas por Supermicro. Además, consulte la lista de sistemas operativos compatibles con su versión de Ubuntu.

En relación con la configuración de CMOS, puede usar Supermicro SUM, siempre que tenga las claves SUM instaladas, para volcar la configuración del BIOS de todos los sistemas y luego vimdiffver si hay algún parámetro CMOS que sea diferente para los sistemas que se reinician regularmente en comparación con el sistema ( s) que no.

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf

Respuesta2

Es hardware Supermicro, por lo que es económico y carece del pulido y la integración de Dell, HP o IBM...

La RAM ECC corrige errores, pero es probable que se supere un umbral. Es probable que el DIMM en cuestión esté fallando y debería planear reemplazarlo.

Puede intentar identificar el módulo por ranura y reemplazarlo. Dado que esto ocurre con frecuencia, será fácil determinar el problema.

Además, mira elpreguntas relacionadasal lado derecho de esta pregunta.

Respuesta3

He visto el mismo problema con esta placa, rev 1.02. Creo que tiene un problema específico. Compro muchas placas SM y normalmente son bastante buenas. Creo que hay un problema con esta placa si todos los DIMM están ocupados. Estoy usando Windows y me sale una pantalla azul, por ejemplo.

Intente ejecutar con 16 GB (solo 2 ranuras) y apuesto a que el problema desaparecerá. Sé que esto no es una solución, pero ayudaría a diagnosticar el comportamiento extraño. Incluso envié una placa a SM y me dijeron que estaba bien, tal vez no probaron con 4 DIMM.

información relacionada