Erros de memória ECC causando reinicializações aleatórias do servidor

Erros de memória ECC causando reinicializações aleatórias do servidor

Estou executando o servidor Ubuntu 14.04 no Supermicro X10SLM-F/Xeon E3-1271 v3

Memória: SuperTalent 32GB DDR3 1600 ECC

Aproximadamente a cada 4 dias, os logs no Ubuntu mostrarão isto:

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:  fru_text: CorrectedErr
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

Imediatamente depois disso, o servidor se reinicializa no modo "ciclo de energia".

Quando olho no log de eventos do BIOS, vejo o seguinte:

DATE            TIME           ERROR CODE      SEVERITY
06/13/15      13:13:38      Smbios 0x02         P1-DIMMB2

E a descrição do erro é:

Single Bit ECC Memory Error

ipmitool no Ubuntu mostra isto:

ipmitool sel elist
...
...
  1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
  1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8

Algumas questões:

  1. Se a memória ECC é autocorretiva, por que a máquina se reinicializa?

  2. Talvez esteja faltando alguma configuração no BIOS que impedirá a reinicialização da caixa?

  3. Isso é obviamente um problema de cartão de memória ou pode ser um problema de slot ou de CPU?

  4. Como impedir a reinicialização do servidor?

Obrigado por qualquer conselho.

Responder1

O sistema não deve ser reinicializado após um erro de memória corrigível. Você vê informações/padrões adicionais via ipmitool sel elist? O watchdog do BMC pode reinicializar o sistema, verifique se ele está habilitado via ipmitool mc watchdog get. Como você já tem as informações sobre a localização do módulo de memória com defeito, substitua-o e se o problema se manifestar novamente, o slot de memória pode estar com defeito.

X10SLM-Fa RAM que você usa não está na lista de módulos de RAM testados - se você tiver a possibilidade, substitua todas as barras de memória em um sistema 'problemático' por outras equivalentes testadas pela Supermicro. Além disso, verifique a lista de sistemas operacionais suportados para sua versão do Ubuntu.

Em relação às configurações do CMOS, você pode usar Supermicro SUM, desde que tenha as chaves SUM instaladas, para despejar as configurações do BIOS de todos os sistemas e depois vimdiffver se há algum parâmetro CMOS diferente para os sistemas que reiniciam regularmente em comparação com o sistema ( s) isso não acontece.

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf

Responder2

É hardware da Supermicro, por isso é barato e não tem o polimento e a integração de um Dell, HP ou IBM...

A RAM ECC corrige erros, mas há um limite que provavelmente está sendo excedido. O DIMM em questão provavelmente está falhando e você deve planejar substituí-lo.

Você pode tentar identificar o módulo por slot e substituí-lo. Como isso ocorre com frequência, será fácil determinar o problema.

Além disso, olhe para oPerguntas relacionadaspara o lado direito desta questão.

Responder3

Eu vi o mesmo problema com esta placa, rev 1.02. Acho que tem um problema específico. Eu compro muitas placas SM e elas geralmente são muito boas. Acho que há um problema com esta placa se todos os DIMMS estiverem preenchidos. Estou usando o Windows e recebo uma tela azul, por exemplo.

Tente apenas rodar com 16 GB (apenas 2 slots) e aposto que o problema desaparecerá. Sei que isso não é uma solução, mas ajudaria a diagnosticar o comportamento estranho. Até mandei uma placa de volta para a SM e eles disseram que estava tudo bem, talvez não tenham testado com 4 DIMMs.

informação relacionada