PDU 管理介面可用性低 - 產品缺陷或孤立問題

PDU 管理介面可用性低 - 產品缺陷或孤立問題

我們的主機託管提供者為我們提供了 APCAP7932交換 0U PDU 作為他們為我們提供的多個機櫃的一部分。我們在這些 PDU 的網路管理方面遇到了很多麻煩,我將在下面進行描述。我們將遷移到同一資料中心的機櫃空間,並將為機櫃購買我們自己的 PDU。我想從遠端管理的角度確定哪些企業級 PDU 性能可靠,這樣我們就不會最終購買紙面上看起來不錯但使用起來卻是一場噩夢的東西。

我們的託管 PDU 配置為支援透過 SSL Web UI 和 telnet 進行管理。我們將所有這些裝置的韌體更新至 2011 年 11 月起的目前版本。它們可靠地回應 ping,我們沒有理由懷疑網路層問題。然而,我們經常遇到所有 PDU 中嵌入式管理主機的暫停、逾時、斷開連線和普遍不可用的情況。我們有時必須重新啟動 PDU 上的微控制器才能從偶爾發生的硬故障中恢復。插座保持供電(值得慶幸的是),但管理方面非常不可靠,以至於它已成為營運責任 - 我們不能確信我們可以在需要時進入 PDU 以重新啟動主機。我們有 3 個 PDU,它們都表現出相同的行為。

有許多企業級 0U 交換式 PDU 製造商,都具有類似的功能。如果我查看了我們目前 PDU 的資料表,它們似乎非常適合——只有在使用它們的痛苦中我們才知道要避免使用它們。我希望避免選擇紙上看起來不錯但具有類似可靠性問題的 PDU。

其他人對於開關式 PDU 的體驗如何?這種程度的片狀現象正常嗎?

答案1

你所描述的情況,不太正常。但是,您如何確定可用性?您是否有持續 ping/探測設備的監控解決方案?

過去,我有過開放式網管系統設定為從我的 APC UPS 和 PDU 設備收集。一些檢查,特別是 http、ftp 和 telnet 探測,導致管理介面逾時,造成 30-60 秒的中斷。也許這就是你所看到的。

不過,我從來沒有遇到 SNMP 收集問題。因此,如果是這種情況,請嘗試減少對管理介面的點擊,並只專注於收集您需要的內容。

摘自我的 APC 介面上的 OpenNMS 可用性圖表 在此輸入影像描述

相關內容