Низкое напряжение на сервере Dual Xeon

Низкое напряжение на сервере Dual Xeon

У меня есть сервер whitebox на CentOS 5.7. Это Dual Xeon 5620, 24 ГБ ОЗУ. Материнская плата — SuperMicro X8DT6-F, а шасси — SC825TQ-R720LPB. Два блока питания по 720 Вт.

Пару недель назад у нас произошло крупное отключение электроэнергии, из-за которого все вышло из строя. У меня нет никаких данных по этому серверу до отключения электроэнергии, и единственная причина, по которой я их заметил, заключается в том, что, когда я проверял серверы, я проверял их более тщательно, чем обычно.

https://i.stack.imgur.com/gPc0Z.png(Изображение показаний напряжения)

Как вы можете видеть, напряжение на разъеме CPU1 DIMM низкое, напряжение на +3,3 В высокое, напряжение на 3,3 В высокое, напряжение на +5 В высокое, напряжение на +12 В ОЧЕНЬ низкое (отклонение от нормы на 5% (плюс/минус))... а напряжение на VBAT зашкаливает.

С моим VAR-решением «whitebox» мы попробовали следующее:

  1. Замените блок питания на другой сервер, у которого установлены такие же блоки питания.
  2. Попробуйте другой шнур питания
  3. Обновите прошивку BMC/IPMI в случае, если показания были неверными (они не являются таковыми)
  4. Обновить BIOS
  5. Попробуйте другой PDU
  6. Попробуйте другую розетку и/или цепь.
  7. Заменен блок регулятора напряжения

На данный момент единственное, чего мы, по-видимому, не сделали, — это заменили материнскую плату... что и будет следующим шагом, если только что-то еще не прольет свет на ситуацию.

Должен отметить, что в остальном система очень надежна, что удивительно, учитывая, что напряжение 12 В так далеко от идеала.

решение1

Учитывая, что вы говорите, что сервер надежен и работает как надо, и что эти напряжения значительно отличаются, я готов поспорить, что либо программное обеспечение для мониторинга неверно интерпретирует напряжения, либо датчики неисправны/неисправны. Если бы это были реальные напряжения, у системы было бы много проблем, и батарея, скорее всего, была бы повреждена из-за перезарядки.

Я предполагаю, что вы используете IPMI для получения показаний напряжения - поскольку это контролируется производителем оборудования, маловероятно, что они будут неправильными. Так что это оставляет неисправные датчики напряжения, которые в большинстве систем встроены в материнскую плату.

Чтобы проверить эту теорию, используйте вольтметр для измерения напряжения на аккумуляторе и шинах питания 12 В. Поскольку они находятся дальше всего, будет легко увидеть, насколько они близки к тому, что сообщают датчики.

Решение — либо заменить материнскую плату, либо игнорировать датчики и надеяться на лучшее.

решение2

Сброс конфигурации BMC устранил ошибки датчиков, и теперь все показания исправны.

Связанный контент