Erros de memória ECC causando reinicializações aleatórias do servidor

Question 1

O sistema não deve ser reinicializado após um erro de memória corrigível. Você vê informações/padrões adicionais via ipmitool sel elist? O watchdog do BMC pode reinicializar o sistema, verifique se ele está habilitado via ipmitool mc watchdog get. Como você já tem as informações sobre a localização do módulo de memória com defeito, substitua-o e se o problema se manifestar novamente, o slot de memória pode estar com defeito.

X10SLM-Fa RAM que você usa não está na lista de módulos de RAM testados - se você tiver a possibilidade, substitua todas as barras de memória em um sistema 'problemático' por outras equivalentes testadas pela Supermicro. Além disso, verifique a lista de sistemas operacionais suportados para sua versão do Ubuntu.

Em relação às configurações do CMOS, você pode usar Supermicro SUM, desde que tenha as chaves SUM instaladas, para despejar as configurações do BIOS de todos os sistemas e depois vimdiffver se há algum parâmetro CMOS diferente para os sistemas que reiniciam regularmente em comparação com o sistema ( s) isso não acontece.

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf

Answer

O sistema não deve ser reinicializado após um erro de memória corrigível. Você vê informações/padrões adicionais via ipmitool sel elist? O watchdog do BMC pode reinicializar o sistema, verifique se ele está habilitado via ipmitool mc watchdog get. Como você já tem as informações sobre a localização do módulo de memória com defeito, substitua-o e se o problema se manifestar novamente, o slot de memória pode estar com defeito.

X10SLM-Fa RAM que você usa não está na lista de módulos de RAM testados - se você tiver a possibilidade, substitua todas as barras de memória em um sistema 'problemático' por outras equivalentes testadas pela Supermicro. Além disso, verifique a lista de sistemas operacionais suportados para sua versão do Ubuntu.

Em relação às configurações do CMOS, você pode usar Supermicro SUM, desde que tenha as chaves SUM instaladas, para despejar as configurações do BIOS de todos os sistemas e depois vimdiffver se há algum parâmetro CMOS diferente para os sistemas que reiniciam regularmente em comparação com o sistema ( s) isso não acontece.

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf

Question 2

É hardware da Supermicro, por isso é barato e não tem o polimento e a integração de um Dell, HP ou IBM...

A RAM ECC corrige erros, mas há um limite que provavelmente está sendo excedido. O DIMM em questão provavelmente está falhando e você deve planejar substituí-lo.

Você pode tentar identificar o módulo por slot e substituí-lo. Como isso ocorre com frequência, será fácil determinar o problema.

Além disso, olhe para oPerguntas relacionadaspara o lado direito desta questão.

Answer

É hardware da Supermicro, por isso é barato e não tem o polimento e a integração de um Dell, HP ou IBM...

A RAM ECC corrige erros, mas há um limite que provavelmente está sendo excedido. O DIMM em questão provavelmente está falhando e você deve planejar substituí-lo.

Você pode tentar identificar o módulo por slot e substituí-lo. Como isso ocorre com frequência, será fácil determinar o problema.

Além disso, olhe para oPerguntas relacionadaspara o lado direito desta questão.

Question 3

Eu vi o mesmo problema com esta placa, rev 1.02. Acho que tem um problema específico. Eu compro muitas placas SM e elas geralmente são muito boas. Acho que há um problema com esta placa se todos os DIMMS estiverem preenchidos. Estou usando o Windows e recebo uma tela azul, por exemplo.

Tente apenas rodar com 16 GB (apenas 2 slots) e aposto que o problema desaparecerá. Sei que isso não é uma solução, mas ajudaria a diagnosticar o comportamento estranho. Até mandei uma placa de volta para a SM e eles disseram que estava tudo bem, talvez não tenham testado com 4 DIMMs.

Answer

Eu vi o mesmo problema com esta placa, rev 1.02. Acho que tem um problema específico. Eu compro muitas placas SM e elas geralmente são muito boas. Acho que há um problema com esta placa se todos os DIMMS estiverem preenchidos. Estou usando o Windows e recebo uma tela azul, por exemplo.

Tente apenas rodar com 16 GB (apenas 2 slots) e aposto que o problema desaparecerá. Sei que isso não é uma solução, mas ajudaria a diagnosticar o comportamento estranho. Até mandei uma placa de volta para a SM e eles disseram que estava tudo bem, talvez não tenham testado com 4 DIMMs.

Erros de memória ECC causando reinicializações aleatórias do servidor

Responder1

Responder2

Responder3

informação relacionada