As tensões do servidor Dual Xeon estão baixas

As tensões do servidor Dual Xeon estão baixas

Eu tenho um servidor whitebox executando o CentOS 5.7. É um Dual Xeon 5620, 24 GB de RAM. A placa-mãe é uma SuperMicro X8DT6-F e o chassi é um SC825TQ-R720LPB. Fontes de alimentação duplas de 720 W.

Tivemos uma grande queda de energia há algumas semanas que derrubou tudo, não tenho nenhum número anterior à queda de energia para este servidor, e a única razão pela qual percebi isso é porque quando eu estava abrindo os servidores, eu estava verificando eles com mais escrutínio do que o habitual.

https://i.stack.imgur.com/gPc0Z.png(Imagem das leituras de tensão)

Como você pode ver, CPU1 DIMM está baixo, +3,3V é alto, 3,3VSB é alto, +5v é alto, +12v é REAL BAIXO (fora do normal 5% (mais/menos))... e VBAT está desligado os gráficos.

Com meu VAR de caixa branca, tentamos o seguinte:

  1. Troque a PSU por outro servidor que tenho com as mesmas PSUs.
  2. Experimente um cabo de alimentação diferente
  3. Atualize o firmware BMC/IPMI caso as leituras estejam erradas (não estão)
  4. Atualizar BIOS
  5. Experimente PDU diferente
  6. Experimente uma tomada e/ou circuito diferente
  7. Unidade reguladora de tensão substituída

Neste ponto, a única coisa que não fizemos, aparentemente, foi substituir a placa-mãe... que é o próximo passo, a menos que algo mais ilumine a situação.

Devo mencionar que o sistema é sólido como uma rocha, o que é uma surpresa, já que a tensão de 12 V está tão distante.

Responder1

Dado que você diz que o servidor está sólido e funcionando corretamente, e que essas tensões estão significativamente desligadas, aposto que o software de monitoramento está interpretando mal as tensões ou os sensores estão com defeito/defeituosos. Se essas fossem as tensões reais, o sistema teria muitos problemas e a bateria provavelmente seria danificada por sobrecarga.

Presumo que você esteja usando o IPMI para obter as leituras de tensão - como isso é controlado pelo fabricante do hardware, é improvável que esteja errado. Isso deixa sensores de tensão defeituosos, que seriam integrados à placa-mãe na maioria dos sistemas.

Para testar essa teoria, use um voltímetro para medir a bateria e os trilhos de alimentação de 12 V. Como eles estão mais distantes, deve ser fácil ver se estão próximos do que os sensores relatam.

A solução é substituir a placa-mãe ou ignorar os sensores e torcer pelo melhor.

Responder2

A redefinição da configuração do BMC eliminou os erros nos sensores e tudo está bem agora.

informação relacionada