
Estou executando o servidor Ubuntu 14.04 no Supermicro X10SLM-F/Xeon E3-1271 v3
Memória: SuperTalent 32GB DDR3 1600 ECC
Aproximadamente a cada 4 dias, os logs no Ubuntu mostrarão isto:
{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]: Error 0, type: corrected
{1}[Hardware Error]: fru_text: CorrectedErr
{1}[Hardware Error]: section_type: memory error
[Firmware Warn]: error section length is too small
Imediatamente depois disso, o servidor se reinicializa no modo "ciclo de energia".
Quando olho no log de eventos do BIOS, vejo o seguinte:
DATE TIME ERROR CODE SEVERITY
06/13/15 13:13:38 Smbios 0x02 P1-DIMMB2
E a descrição do erro é:
Single Bit ECC Memory Error
ipmitool no Ubuntu mostra isto:
ipmitool sel elist
...
...
1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8
Algumas questões:
Se a memória ECC é autocorretiva, por que a máquina se reinicializa?
Talvez esteja faltando alguma configuração no BIOS que impedirá a reinicialização da caixa?
Isso é obviamente um problema de cartão de memória ou pode ser um problema de slot ou de CPU?
Como impedir a reinicialização do servidor?
Obrigado por qualquer conselho.
Responder1
O sistema não deve ser reinicializado após um erro de memória corrigível. Você vê informações/padrões adicionais via ipmitool sel elist
? O watchdog do BMC pode reinicializar o sistema, verifique se ele está habilitado via ipmitool mc watchdog get
. Como você já tem as informações sobre a localização do módulo de memória com defeito, substitua-o e se o problema se manifestar novamente, o slot de memória pode estar com defeito.
X10SLM-Fa RAM que você usa não está na lista de módulos de RAM testados - se você tiver a possibilidade, substitua todas as barras de memória em um sistema 'problemático' por outras equivalentes testadas pela Supermicro. Além disso, verifique a lista de sistemas operacionais suportados para sua versão do Ubuntu.
Em relação às configurações do CMOS, você pode usar Supermicro SUM
, desde que tenha as chaves SUM instaladas, para despejar as configurações do BIOS de todos os sistemas e depois vimdiff
ver se há algum parâmetro CMOS diferente para os sistemas que reiniciam regularmente em comparação com o sistema ( s) isso não acontece.
sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf
Responder2
É hardware da Supermicro, por isso é barato e não tem o polimento e a integração de um Dell, HP ou IBM...
A RAM ECC corrige erros, mas há um limite que provavelmente está sendo excedido. O DIMM em questão provavelmente está falhando e você deve planejar substituí-lo.
Você pode tentar identificar o módulo por slot e substituí-lo. Como isso ocorre com frequência, será fácil determinar o problema.
Além disso, olhe para oPerguntas relacionadaspara o lado direito desta questão.
Responder3
Eu vi o mesmo problema com esta placa, rev 1.02. Acho que tem um problema específico. Eu compro muitas placas SM e elas geralmente são muito boas. Acho que há um problema com esta placa se todos os DIMMS estiverem preenchidos. Estou usando o Windows e recebo uma tela azul, por exemplo.
Tente apenas rodar com 16 GB (apenas 2 slots) e aposto que o problema desaparecerá. Sei que isso não é uma solução, mas ajudaria a diagnosticar o comportamento estranho. Até mandei uma placa de volta para a SM e eles disseram que estava tudo bem, talvez não tenham testado com 4 DIMMs.