デュアルXeonサーバーの電圧が低い

デュアルXeonサーバーの電圧が低い

CentOS 5.7 を実行するホワイトボックス サーバーがあります。デュアル Xeon 5620、24GB の RAM です。メインボードは SuperMicro X8DT6-F、シャーシは SC825TQ-R720LPB です。デュアル 720W 電源です。

数週間前に大規模な停電が発生し、すべてがダウンしました。このサーバーの停電前のデータは持っていません。私がこれに気づいたのは、サーバーを立ち上げたときに、いつもより綿密にチェックしていたからです。

https://i.stack.imgur.com/gPc0Z.png(電圧測定値の画像)

ご覧のとおり、CPU1 DIMM は低く、+3.3V は高く、3.3VSB は高く、+5v は高く、+12v は非常に低く (通常の 5% (プラス/マイナス) を超えています)、VBAT は異常値です。

ホワイトボックス VAR では次のことを試しました。

  1. 同じ PSU を搭載した別のサーバーと PSU を交換します。
  2. 別の電源コードを試す
  3. 読み取り値が間違っていた場合に備えて、BMC/IPMI ファームウェアを更新します (間違っていません)
  4. BIOSを更新する
  5. 別のPDUを試す
  6. 別のコンセントや回路を試してください
  7. 交換された電圧レギュレータユニット

現時点で、私たちがまだ行っていない唯一のことは、メインボードの交換のようです。何か他のことが状況を明らかにするのでなければ、次のステップはメインボードの交換になります。

それ以外の点では、システムは極めて安定しており、12V の電圧がそれほど離れていることを考えると驚きです。

答え1

サーバーは安定していて正常に動作しているのに、電圧が大幅にずれているとおっしゃっていることを考えると、監視ソフトウェアが電圧を誤って解釈しているか、センサーが故障しているか欠陥があるかのどちらかだと思います。実際の電圧がこれであれば、システムには多くの問題があり、バッテリーは過充電で損傷する可能性があります。

電圧の読み取りには IPMI を使用していると想定しています。これはハードウェア製造元によって制御されているため、間違いは起こりにくいでしょう。つまり、ほとんどのシステムではマザーボードに組み込まれている電圧センサーに欠陥があることになります。

この理論をテストするには、電圧計を使用してバッテリーと 12V 電源レールを測定します。これらは最も離れているため、センサーが報告するものに近いかどうかを簡単に確認できるはずです。

解決策としては、マザーボードを交換するか、センサーを無視して最善の結果を期待するかのどちらかです。

答え2

BMC 構成をリセットすると、センサーのエラーが解消され、すべてが正常に読み取られるようになりました。

関連情報