SMART エラーの致死率はどのくらいですか?

SMART エラーの致死率はどのくらいですか?

当社には、RAID 5 構成の 40 TB ストレージ サーバーがあり、2 TB ドライブが 12 台あります。1 つのドライブはホットスペアとして機能し、ハードウェア RAID コントローラーで管理されています。

何らかの理由で、3 台のドライブが同時に故障したようです。1 台は完全に故障したようで、2 台は SMART エラーを示しています。ホットスペアはアレイの一部に変換されていないようですが、いずれにしても自動的に変換されたかどうかはわかりません。

問題は、これらの 2 つのドライブを再起動し、アレイを再構築し、それらのドライブが最終的に故障する前にそのデータを保存することは可能かどうかです。SMART エラーに関する私の知識では、これは完全な故障ではなく、単に予測された故障です。

明らかに、これらのドライブはすぐに交換する必要がありますが、完全に壊れているのでしょうか、それとも修復できるのでしょうか?

答え1

完全に故障したドライブはできるだけ早く交換する必要があります。そうすれば、アレイは自動的に再構築されます。この調査によると、SMART 障害が発生したドライブは、SMART 障害が発生していないドライブよりも故障する可能性が高くなります。https://static.googleusercontent.com/media/research.google.com/en//archive/disk_failures.pdfこれらも置き換える必要があり、重要なユースケースでは二度と使用しないでください。

同一のハード ドライブを使用している場合は、複数のスペア ドライブを用意しておくことをお勧めします。その数は、ストレージ デバイスがどのくらいの期間使用されると予想されるかによって異なります。

私の意見では、RAID5 は 1 TB を超えるドライブのアレイには適していません。RAID5 は再構築に時間がかかり、再構築中はパフォーマンスが低下します。また、RAID5 はアレイに多数の (12 個の) ディスクがある場合、1 つの障害からしか保護されないため、あまり役に立ちません。2 度目の障害が発生すると、アレイ全体が台無しになります。

今後のビルドでは、代わりに RAID10 を使用することをお勧めします。これにより、より安定した高速パフォーマンスが得られ、障害耐性も向上します。

答え2

私の理解では、RAID 5 ではアレイ内の 1 つのディスク障害が許容されます。ホットスペアは、要求に応じてそれに応じて構築されます。これを行うには、使用しているコントローラー/GUI または任意のフロントエンドが使用されます。RAID の再構築にかかる時間は、使用中のデータの量によって異なります。ホットスペアが構築されると、理論上は RAID は正常に戻ります。この間に、SMART エラーのある他のドライブの 1 つをオフラインにして、ホットスペア プロセスを使用して再構築します。エラーのあるすべての HDD が交換されるまで完了します。重要なデータが格納されていて SMART エラーが表示されているディスクはすべて交換します。今後は RAID 6 を使用できますが、もちろん、すべてのデータを移動してバックアップし、アレイを再構築して元に戻す必要があります。RAID 6 ではより多くのディスク障害が許容されますが、書き込み速度がわずかに低下します。

関連情報