
Наш провайдер колокейшн предоставил нам APCAP7932коммутируемые 0U PDU как часть нескольких шкафов, которые они нам предоставили. У нас было много проблем с аспектом сетевого управления этими PDU, о чем я расскажу ниже. Мы переезжаем в пространство в каркасе в том же центре обработки данных и купим собственные PDU для каркаса. Я хотел бы определить, какие PDU корпоративного класса оказались надежными исполнителями с точки зрения удаленного управления, чтобы в итоге не купить что-то, что хорошо выглядит на бумаге, но является кошмаром в использовании.
Наши предоставленные colo PDU настроены на поддержку управления через веб-интерфейс SSL и через telnet. Мы обновили прошивку на всех из них до текущей версии по состоянию на НОЯБРЬ 2011 г. Они надежно отвечают на пинги, и у нас нет причин подозревать проблему на сетевом уровне. Однако мы часто сталкиваемся с зависаниями, тайм-аутами, отключениями и общей недоступностью встроенного хоста управления во всех PDU. Иногда нам приходится перезапускать микроконтроллер на PDU, чтобы восстановиться после того, что, по-видимому, является случайной жесткой ошибкой. Розетки остаются включенными (к счастью), но аспект управления настолько ненадежен, что стал ответственностью ops — мы не можем быть уверены, что сможем попасть в PDU, чтобы выключить и включить хост, если нам это понадобится. У нас есть 3 PDU, которые все ведут себя одинаково.
Существует много производителей коммутируемых PDU корпоративного класса 0U, все со схожими характеристиками. Если бы я посмотрел на техническое описание наших текущих PDU, они бы показались мне подходящими — только с выгодой от страданий при их использовании мы знаем, что их следует избегать. Я бы не хотел выбирать PDU, который выглядит хорошо на бумаге, но имеет схожие проблемы с надежностью.
Какой опыт у других с коммутируемыми PDU? Нормален ли такой уровень нестабильности?
решение1
То, что вы описываете, не является нормальным, как бы. Однако, как вы определяете доступность? У вас есть решение для мониторинга, которое постоянно пингует/зондирует устройство?
В прошлом у меня былоOpenNMSнастроен на сбор данных с моих устройств APC UPS и PDU. Некоторые проверки, в частности, http, ftp и telnet, привели к тайм-ауту интерфейса управления, что привело к простоям на 30-60 секунд. Возможно, это то, что вы видите.
Однако у меня никогда не было проблем со сбором SNMP. Так что если это ваш случай, попробуйте уменьшить количество обращений к интерфейсу управления и сосредоточьтесь только на сборе того, что вам нужно.
Фрагмент моей таблицы доступности OpenNMS на интерфейсе APC