3Ware の tw_cli の「DEGRADED」ディスクと「ECC-ERROR」はどういう意味ですか?

3Ware の tw_cli の「DEGRADED」ディスクと「ECC-ERROR」はどういう意味ですか?

3ware 9650SE-16ML カードに、残念な RAID アレイがあります。ダブルディスク障害 (残念!) に見舞われたのか、それとも私がこれを間違って読んでいるのかはわかりません。関連する出力は次のとおり/c0 show allです。

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     DEGRADED         u0     931.51 GB   1953525168    5QJ07MAH            
p1     ECC-ERROR        u0     931.51 GB   1953525168    5QJ0DCW9            
p2     OK               u0     931.51 GB   1953525168    5QJ0DW9C            
p3     OK               u0     931.51 GB   1953525168    5QJ0CKXJ            

そして失敗は( からshow alarms)です:

Ctl  Date                        Severity  Alarm Message
------------------------------------------------------------------------------
c0   [Sun Nov 20 07:47:23 2011]  INFO      Rebuild started: unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Drive ECC error reported: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Source drive error occurred: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Rebuild failed: unit=0
c0   [Sun Nov 20 08:20:12 2011]  INFO      Rebuild paused: unit=0

考える何が起こったかというと、p0 が失敗し、その後 p1 に ECC エラーが発生した (つまり、データが消失した) ということです。しかし...そうではないかもしれません。再構築率は 97% のままですが、このエラーを回避できません。

私の知る限り、以前の管理者が定期的な検証をオフにしたため、この状態になりました。これは、3Ware RAID でほとんどの人が心配することではありません。

アップデート

数日間酷使した後、IgnoreECC ビットを実行して再構築しましたが、データは壊れてしまいました。残念です。

答え1

ECC エラーは、ドライブ上に読み取り不可能なセクターが少なくとも 1 つあることを意味します。ただし、運が良ければ、そのセクターは実際にはそのボリュームにあるファイルシステムによって使用されていない可能性があり、この状態でもアレイからデータをコピーできる可能性があります。

再構築中に ECC エラーを無視するオプションもいくつかあります。

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

ただし、これらのオプションを使用すると、不良セクターの影響を受けた RAID ストライプが破損します (この場合、カードが正確に何を行うかは不明です。ストライプ全体をゼロに置き換えたり、ランダム データに置き換えたりする可能性があります)。そのため、「回復された」アレイには実際には検出できない破損がある可能性があります (影響を受けたストライプが何らかのデータ ファイルの途中にあった場合)。再構築を試みる前に、アレイからデータを別の場所にコピーしておく方が安全です (少なくとも、不良領域を読み取ろうとするとエラーが発生するはずです)。

読み取り不可能なセクターを早期に検出し、故障し始めたドライブを交換できるように、アレイの定期検証を設定する必要があります。

答え2

物理ドライブ(p0)がDEGRADED状態になったことは一度もありませんが、ECCエラードライブやDEGRADEDドライブを以下の方法で取り外すことで元に戻せる可能性があります。

/c0 p1 remove

そして再スキャンを実行する

/c0 rescan

それらをレイドユニットに戻すには

maint rebuild c0 u0 p1

ECC エラーで故障した SATA ドライブは、再び故障する前に数時間だけでも復活できました。

答え3

データが消失している可能性が非常に高いです。ECC エラーは、このディスクからの読み取り中に回復不可能なエラーが発生したことを意味します。

バックアップがない場合は、アレイの現在の状態をダンプしてみることができます。コントローラはデータが失われたのか、単に空き領域があるのか​​を知らないため (ファイル システムに関する洞察がないため)、これが可能である可能性があります。

関連情報