У меня есть сервер whitebox на CentOS 5.7. Это Dual Xeon 5620, 24 ГБ ОЗУ. Материнская плата — SuperMicro X8DT6-F, а шасси — SC825TQ-R720LPB. Два блока питания по 720 Вт.
Пару недель назад у нас произошло крупное отключение электроэнергии, из-за которого все вышло из строя. У меня нет никаких данных по этому серверу до отключения электроэнергии, и единственная причина, по которой я их заметил, заключается в том, что, когда я проверял серверы, я проверял их более тщательно, чем обычно.
https://i.stack.imgur.com/gPc0Z.png(Изображение показаний напряжения)
Как вы можете видеть, напряжение на разъеме CPU1 DIMM низкое, напряжение на +3,3 В высокое, напряжение на 3,3 В высокое, напряжение на +5 В высокое, напряжение на +12 В ОЧЕНЬ низкое (отклонение от нормы на 5% (плюс/минус))... а напряжение на VBAT зашкаливает.
С моим VAR-решением «whitebox» мы попробовали следующее:
- Замените блок питания на другой сервер, у которого установлены такие же блоки питания.
- Попробуйте другой шнур питания
- Обновите прошивку BMC/IPMI в случае, если показания были неверными (они не являются таковыми)
- Обновить BIOS
- Попробуйте другой PDU
- Попробуйте другую розетку и/или цепь.
- Заменен блок регулятора напряжения
На данный момент единственное, чего мы, по-видимому, не сделали, — это заменили материнскую плату... что и будет следующим шагом, если только что-то еще не прольет свет на ситуацию.
Должен отметить, что в остальном система очень надежна, что удивительно, учитывая, что напряжение 12 В так далеко от идеала.
решение1
Учитывая, что вы говорите, что сервер надежен и работает как надо, и что эти напряжения значительно отличаются, я готов поспорить, что либо программное обеспечение для мониторинга неверно интерпретирует напряжения, либо датчики неисправны/неисправны. Если бы это были реальные напряжения, у системы было бы много проблем, и батарея, скорее всего, была бы повреждена из-за перезарядки.
Я предполагаю, что вы используете IPMI для получения показаний напряжения - поскольку это контролируется производителем оборудования, маловероятно, что они будут неправильными. Так что это оставляет неисправные датчики напряжения, которые в большинстве систем встроены в материнскую плату.
Чтобы проверить эту теорию, используйте вольтметр для измерения напряжения на аккумуляторе и шинах питания 12 В. Поскольку они находятся дальше всего, будет легко увидеть, насколько они близки к тому, что сообщают датчики.
Решение — либо заменить материнскую плату, либо игнорировать датчики и надеяться на лучшее.
решение2
Сброс конфигурации BMC устранил ошибки датчиков, и теперь все показания исправны.