Dell T610 サーバーでディスク障害が繰り返し発生

Dell T610 サーバーでディスク障害が繰り返し発生

中古の Poweredge T610 を購入し、2x Hexcore Xeon X5675 プロセッサと 96 GB RAM にアップグレードしました。最初は、RAID-5 アレイ (Perc6i コントローラー) で 3 つの WD Green 2TB ドライブを使用し、仮想ディスクに Ubuntu サーバーをインストールしました。このセットアップは約 1 年間うまく機能しましたが、その後問題が発生し始めました。

2 番目のアレイとして拡張するために、新しいドライブ (4x 3TB WD Red ドライブ) をいくつか購入しました。その間に、少なくとも WD Green は良い選択ではないことを学んだので、新しい VD の一部のデータをバックアップしたいと考えました。Perc6i は 2TB を超えるドライブを好まないことが判明しましたが、3 TB のうち最初の 2 つは認識しました。新しいドライブで VD の設定をまだ開始していませんでしたが、3 週間後、WD Green アレイが破損し始めました (最初は一部のソフトウェアで奇妙なグリフが表示されましたが、その後、ブート シーケンスが破損するまで深刻な問題が発生しました)。最終的には、幸運にも助けてくれるプロのデータ復旧サービスに依頼しました。Perc6i を H700 に交換し、4 つの 3TB WD Red ドライブの RAID6 アレイを設定しました (設定前に Dell ハードウェア診断拡張テストでテストしましたが、いずれにもエラーはありませんでした)。Ubuntu、必要なすべてのソフトウェア、x2go などをインストールし、再び稼働しました。

今、以前と同じ問題が発生しています。X2go では、同じソフトウェア (バイオインフォマティクス Artemis パッケージ) が起動して、コマンド ラインにグリフが吐き出され、振り出しに戻ってしまうようです。キャディのすべてのステータス LED は緑色で点灯し、オンラインです。少なくとも、システムが認識する予測障害はありません。

何が問題なのか疑問に思い始めています。

ありそうにないと思うこと: - プライマリ ディスク障害 (再び!)。ドライブは新品で、長時間のテストで不良セクタはなく、電源オン時間もほとんどなかったため。 - perc6i コントローラは最初の障害後に H700 に交換されたため、問題ではないはずです。

評価に助けが必要な点: - バックプレーン/ケーブルの問題? (H700 コントローラーには、私のケースに適合しない別のサーバー タイプ用のケーブルが付属していました。コントローラーをバックプレーンに接続するために別の SATA6 ケーブルを使用しただけです) ちなみに、ドライブは以前の故障したベイと同じベイにあり、オリジナルの Dell SATA ケーブルがそこに接続されています。

- マザーボードの問題ですか? - CPU または RAM の問題ですか? - 電源 (電圧ピーク??)

これまでに同様の問題に遭遇した人はいますか? どなたか助けていただければ幸いです。残念ながら、サーバーにアクセスできるようになるまであと 2 週間 (物理的にもネットワーク的にも) かかります。この問題は、ローカル ネットワークでサーバーを操作している妻によって「報告」されました (ただし、残念ながらトラブルシューティングには協力できません)。


はい、デルのハードウェア診断手順をすべて実行しましたが、問題はありませんでした。ドライブの1つだけに欠陥ブロックが検出されましたが、RAID 5アレイを再構築できなかったため、データ復旧の専門家に依頼しました。他のハードウェアはすべて正常でした。

どこかで不具合のある接触のような一貫性のない問題が起こり、ある時点ではテストに合格し、別の時点では不合格になる可能性があるのではないかと思います。あるいは、テストがすべてのシナリオをカバーしていないのではないかと思います...

答え1

経験上、これは RAM の破損の問題のようです。まず試すべきはメモリ診断ツールです。Dell ではダウンロードで入手できます。

それでもエラーが見つからない場合は、すべてのハードウェアを取り外して必要最小限にしてから、問題が見つかるまでハードウェアを戻します。非常に時間がかかりますが、診断で何も表示されない場合は、これが唯一の方法である場合があります。明らかに、ハード ドライブでこれを行うのは困難ですが、CPU と RAM では可能です。一度に 1 つずつ戻すことを忘れないでください。そうしないと、どれが原因かわかりません。

もう 1 つの提案は、ベアメタルにインストールするのではなく、ハイパーバイザーを使用して仮想マシンを作成することです。これにより、障害が発生した場合に機能を復元するのがはるかに簡単になります。また、アプリケーションをインストールする前にバックアップ体制を確立しておくと、データ復旧サービスが再び必要になることを回避できます。

答え2

運が悪かったら、別の新しいコンピューターで HDD をテストして、現在の状態を確認してください。

T610 は 9 年前の製品だということを覚えておいてください。正直なところ、現在のデスクトップは T610 よりも高速だと思います。

ドライブのファームウェアが影響を与える可能性がありますが、アレイはそれらを外部ディスクとしてフラグ付けします。すべてを一度に変更した方がよいでしょう。Dell のファームウェアを搭載したドライブと通常のドライブが混在していないため、コントローラーはそれを許可しません。

ディスク上のファームウェアにより、コントローラはディスクで高度な機能を実現できますが、通常のファームウェアを搭載した標準ディスクを使用した場合、アレイは通常どおり動作します。

配列が検出されたという事実から、コントローラーが配列を認識して使用できると考えられます。最初に不運だと述べたのはそのためです。

関連情報