
毎月のように、VMware 4.1 を実行しているサーバーの 1 つが応答しなくなりました。再起動するには、ハード リブートするしかありませんでした。この状態になると、VMware に接続できましたが、ナビゲートして情報を表示する以外は何もできませんでした。
サーバーは、2 つの 1TB SATA ディスクと Dell SAS 6/iR アダプタ Raid コントローラ (ディスクのミラーリング、バッテリーなし) を搭載した Dell PowerEdge R210 です。私は、問題なく動作している別の同一サーバーを持っています。
これを解明するために、いくつかのテストが実行できるようにサーバーを交換しました。 これまでのところ、BIOS と RAID コントローラー ファームウェアを更新し、VMware を再インストールし、すべての RAM モジュールを交換しましたが、問題は解決していません。
サーバーに Ubuntu をインストールしようとしましたが、問題は発生せず、VMware を実行しているときにのみ発生します。
この現象はこれまでに 10 回ほど発生しており、ディスク負荷が大きい場合に発生する可能性が高くなるようです。
エラーメッセージは次のようになります。
ストレージ デバイス naa.600508e000000000a528c060b1275b09 への接続が失われました。パス vmhba1:C1:T0:L0 がダウンしています。影響を受けるデータストア: ""、"datastore1"、"Hypervisor1"、"Hypervisor2"、"Hypervisor3"。
接続の問題により、ボリューム 50520233-c467e816-a5a1-0026b97a4010 (データストア 1) へのアクセスが失われました。回復の試みが進行中であり、結果はまもなく報告されます。
ログエントリは次のとおりです。
答え1
SATAディスクのタイムアウトの可能性があります。失敗ディスク。
PERC コントローラにバッテリバックアップキャッシュはありますか?
見る:ハードウェア SATA RAID-10 アレイ内の 1 つのディスクが、アレイ全体を急停止させるのはなぜでしょうか?