そこで最近、サーバーグレードのシステムとすべてのサーバーグレードの周辺機器を購入しました。ESXi 6 のライセンスを取得しており、最新のパッチもすべてインストールしています。システムを約 2 週間稼働させていましたが、突然完全にクラッシュしてしまいました。
私はこのエラー コードを「内部タイマー エラー」と解釈しました。SuperMicro に情報を転送しましたが、正直に言うと、これまでのところ彼らの返答にはあまり自信がありません。私の解釈では、ESXi を実行している ECC メモリ付きの Xeon なので、システムがクラッシュするはずがないということです。
これは一度限りのエラーで、二度と起こらないはずのエラーなのでしょうか? どのように対処しますか? このようなエラーを経験したことがある方、そして実際にどう対処したかという方からのアドバイスをお待ちしています。
答え1
このエラー (MCE、マシン チェック例外) が表示されるのは、ECC RAM が搭載されているためです。
どこかに壊れたハードウェアがあります。おそらくメモリ スティックですが、1 つ以上のプロセッサ (CPU 10 でしょうか?) またはその中間の何かである可能性があります。サポート契約を発動してください。
ハードウェアの他の部分も原因である可能性がありますが、私が見た限りでは、複数ビットの障害が発生している ECC RAM に障害が発生していました。MCE が「内部タイマー エラー」としてデコードされた場合、次に可能性が高いのは CPU またはマザーボードの障害です。
答え2
はい、心配です。サーバーがクラッシュしました!
RAM と CPU ソケット ピンを確認します (サーバーを手作業で組み立てた場合)。
取得できる情報はこれだけです。VMware にサポート ケースを開くと、クラッシュ ダンプが分析されます。