雙 Xeon 伺服器電壓低

雙 Xeon 伺服器電壓低

我有一個運行 CentOS 5.7 的白盒伺服器。它是雙 Xeon 5620、24GB RAM。主機板是SuperMicro X8DT6-F,機殼是SC825TQ-R720LPB。雙 720W 電源。

幾週前我們發生了一次大停電,導致所有東西都癱瘓了,我沒有這台伺服器的任何停電前數據,我注意到這些的唯一原因是因為當我啟動伺服器時我正在檢查它們比平時更加嚴格地審查。

https://i.stack.imgur.com/gPc0Z.png(電壓讀數影像)

如您所見,CPU1 DIMM 為低電平,+3.3V 為高電平,3.3VSB 為高電平,+5v 為高電平,+12v 為低電平(超出正常值5%(正/負))...並且VBAT 關閉圖表。

透過我的白盒 VAR,我們嘗試了以下操作:

  1. 將 PSU 更換為我擁有的另一台具有相同 PSU 的伺服器。
  2. 嘗試不同的電源線
  3. 更新 BMC/IPMI 韌體以防讀數錯誤(事實並非如此)
  4. 更新BIOS
  5. 嘗試不同的 PDU
  6. 嘗試不同的插座和/或電路
  7. 更換穩壓器單元

在這一點上,我們唯一還沒有做的事情似乎是更換主機板..這就是下一步,除非有其他事情可以說明情況。

我應該要提到的是,該系統堅如磐石,否則考慮到 12v 電壓相差那麼遠,這真是令人驚訝。

答案1

鑑於您說伺服器堅如磐石並且工作正常,並且這些電壓明顯偏離,我敢打賭要么監控軟體誤解了電壓,要么感測器發生故障/有缺陷。如果這些是實際電壓,系統就會出現許多問題,電池可能會因過度充電而損壞。

我假設您正在使用 IPMI 來獲取電壓讀數 - 因為這是由硬體製造商控制的,所以不太可能出錯。因此,這就留下了故障的電壓感測器,這些感測器將內建在大多數系統的主機板中。

為了驗證這個理論,請使用電壓表測量電池和 12v 電源軌。由於它們距離最遠,因此應該很容易看出它們是否與感測器報告的內容接近。

解決方案是更換主機板,或忽略感測器並希望得到最好的結果。

答案2

重置 BMC 配置清除了感測器上的錯誤,現在一切正常。

相關內容