RAID コントローラーはどのディスクに障害があるかをどのように判断するのでしょうか?

Question

RAID コントローラは、どのディスクが I/O エラーを発生しているか、または応答していないかを確認して、どのディスクに障害があるかを判断します。

最近のハードドライブ (つまり、過去 20 年ほどの間に製造されたもの) は、セクターレベルの ECC を使用してビット反転エラーを検出し、修正します。現在使用されている ECC システムは、セクター内の任意の 1 ビットエラーを修正でき、すべての 2 ビットエラーを検出できます。セクターを繰り返し読み取ると常に 1 ビットエラーが発生する場合、ドライブのファームウェアは、そのセクターをドライブの未使用部分に自動的に再マップします (最近のハードドライブにはすべて、この目的のために少しの空き領域があります)。2 ビットエラーが発生した場合、ファームウェアはコントローラーに I/O エラーを報告し、RAID コントローラーはドライブを故障としてマークします。データが検出できないほど破損するには、1 つのセクターで少なくとも 3 つのビットが反転する必要がありますが、これは極めてまれなイベントです。

不良ファームウェアがビット反転を引き起こしていると思われる場合は、整合性チェックを実行することで RAID レベル (RAID 1、10、5、および 6) でこれを検出できますが、パリティ/ミラーリングが一致しないストライプがあることが示されるだけで、どのドライブが不良であるかはわかりません。アレイからドライブを取り出し、お気に入りのディスクチェックツールを使用して不良ブロックの「表面スキャン」を実行することで、不良ドライブを見つけることができます。ファームウェアが不良である場合、スキャンによって数十万の不良セクターが見つかるはずです。

Answer 1

RAID コントローラは、どのディスクが I/O エラーを発生しているか、または応答していないかを確認して、どのディスクに障害があるかを判断します。

最近のハードドライブ (つまり、過去 20 年ほどの間に製造されたもの) は、セクターレベルの ECC を使用してビット反転エラーを検出し、修正します。現在使用されている ECC システムは、セクター内の任意の 1 ビットエラーを修正でき、すべての 2 ビットエラーを検出できます。セクターを繰り返し読み取ると常に 1 ビットエラーが発生する場合、ドライブのファームウェアは、そのセクターをドライブの未使用部分に自動的に再マップします (最近のハードドライブにはすべて、この目的のために少しの空き領域があります)。2 ビットエラーが発生した場合、ファームウェアはコントローラーに I/O エラーを報告し、RAID コントローラーはドライブを故障としてマークします。データが検出できないほど破損するには、1 つのセクターで少なくとも 3 つのビットが反転する必要がありますが、これは極めてまれなイベントです。

不良ファームウェアがビット反転を引き起こしていると思われる場合は、整合性チェックを実行することで RAID レベル (RAID 1、10、5、および 6) でこれを検出できますが、パリティ/ミラーリングが一致しないストライプがあることが示されるだけで、どのドライブが不良であるかはわかりません。アレイからドライブを取り出し、お気に入りのディスクチェックツールを使用して不良ブロックの「表面スキャン」を実行することで、不良ドライブを見つけることができます。ファームウェアが不良である場合、スキャンによって数十万の不良セクターが見つかるはずです。

RAID コントローラーはどのディスクに障害があるかをどのように判断するのでしょうか?

答え1

関連情報