PDU 管理インターフェースの可用性が低い - 製品の欠陥または個別の問題

PDU 管理インターフェースの可用性が低い - 製品の欠陥または個別の問題

当社のコロケーションプロバイダーはAPCを供給していますAP7932スイッチ付き 0U PDU は、同社が提供する複数のキャビネットの一部です。これらの PDU のネットワーク管理面で多くの問題を抱えています。これについては後述します。同じデータセンター内のケージ スペースに移動する予定で、ケージ用に独自の PDU を購入する予定です。リモート管理の観点から、エンタープライズ グレードのどの PDU が信頼できるパフォーマンスを発揮しているかを判断し、紙面上では良さそうでも実際に使用すると悪夢になるようなものを購入しないようにしたいと思います。

コロケーションで提供された PDU は、SSL Web UI および Telnet による管理をサポートするように構成されています。すべての PDU のファームウェアを 2011 年 11 月の現在のバージョンに更新しました。ping には確実に応答し、ネットワーク層の問題を疑う理由はありません。ただし、すべての PDU に組み込まれた管理ホストで、頻繁にハング、タイムアウト、切断、および全般的な使用不可が発生します。時折発生するハード障害と思われるものから回復するために、PDU のマイクロコントローラを再起動する必要がある場合があります。コンセントは (ありがたいことに) 電源が入ったままですが、管理面があまりにも信頼性が低く、運用上の負担になっています。必要な場合に PDU にアクセスしてホストの電源を入れ直すことができるかどうか確信が持てません。3 つの PDU があり、すべて同じ動作を示します。

エンタープライズ グレードの 0U スイッチ PDU の製造元は多数あり、いずれも同等の機能を備えています。現在の PDU のデータシートを見ると、それらは適しているように見えますが、実際に使用して苦労して初めて、それらを避けるべきであることがわかります。紙面上では問題ないように見えても、同様の信頼性の問題がある PDU を選択することは避けたいものです。

スイッチ PDU に関する他の人の経験はどうですか? このレベルの不安定さは正常ですか?

答え1

あなたが説明していることは、ある意味、正常ではありません。しかし、可用性をどのように判断しているのですか? デバイスを継続的に ping/プローブする監視ソリューションはありますか?

過去に私はオープンNMSAPC UPS および PDU デバイスから収集するように設定されています。一部のチェック、特に http、ftp、telnet プローブにより、管理インターフェイスがタイムアウトし、30 ~ 60 秒の停止が発生しました。おそらく、これが表示されているものだと思います。

ただし、SNMP 収集で問題が発生したことはありません。そのため、このような場合は、管理インターフェイスへのヒットを減らし、必要なものだけを収集することに集中するようにしてください。

APC インターフェース上の OpenNMS 可用性チャートからの抜粋 ここに画像の説明を入力してください

関連情報