
Eu tenho um servidor whitebox executando o CentOS 5.7. É um Dual Xeon 5620, 24 GB de RAM. A placa-mãe é uma SuperMicro X8DT6-F e o chassi é um SC825TQ-R720LPB. Fontes de alimentação duplas de 720 W.
Tivemos uma grande queda de energia há algumas semanas que derrubou tudo, não tenho nenhum número anterior à queda de energia para este servidor, e a única razão pela qual percebi isso é porque quando eu estava abrindo os servidores, eu estava verificando eles com mais escrutínio do que o habitual.
https://i.stack.imgur.com/gPc0Z.png(Imagem das leituras de tensão)
Como você pode ver, CPU1 DIMM está baixo, +3,3V é alto, 3,3VSB é alto, +5v é alto, +12v é REAL BAIXO (fora do normal 5% (mais/menos))... e VBAT está desligado os gráficos.
Com meu VAR de caixa branca, tentamos o seguinte:
- Troque a PSU por outro servidor que tenho com as mesmas PSUs.
- Experimente um cabo de alimentação diferente
- Atualize o firmware BMC/IPMI caso as leituras estejam erradas (não estão)
- Atualizar BIOS
- Experimente PDU diferente
- Experimente uma tomada e/ou circuito diferente
- Unidade reguladora de tensão substituída
Neste ponto, a única coisa que não fizemos, aparentemente, foi substituir a placa-mãe... que é o próximo passo, a menos que algo mais ilumine a situação.
Devo mencionar que o sistema é sólido como uma rocha, o que é uma surpresa, já que a tensão de 12 V está tão distante.
Responder1
Dado que você diz que o servidor está sólido e funcionando corretamente, e que essas tensões estão significativamente desligadas, aposto que o software de monitoramento está interpretando mal as tensões ou os sensores estão com defeito/defeituosos. Se essas fossem as tensões reais, o sistema teria muitos problemas e a bateria provavelmente seria danificada por sobrecarga.
Presumo que você esteja usando o IPMI para obter as leituras de tensão - como isso é controlado pelo fabricante do hardware, é improvável que esteja errado. Isso deixa sensores de tensão defeituosos, que seriam integrados à placa-mãe na maioria dos sistemas.
Para testar essa teoria, use um voltímetro para medir a bateria e os trilhos de alimentação de 12 V. Como eles estão mais distantes, deve ser fácil ver se estão próximos do que os sensores relatam.
A solução é substituir a placa-mãe ou ignorar os sensores e torcer pelo melhor.
Responder2
A redefinição da configuração do BMC eliminou os erros nos sensores e tudo está bem agora.