3ware 9650SE-16ML カードに、残念な RAID アレイがあります。ダブルディスク障害 (残念!) に見舞われたのか、それとも私がこれを間違って読んでいるのかはわかりません。関連する出力は次のとおり/c0 show all
です。
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 DEGRADED u0 931.51 GB 1953525168 5QJ07MAH
p1 ECC-ERROR u0 931.51 GB 1953525168 5QJ0DCW9
p2 OK u0 931.51 GB 1953525168 5QJ0DW9C
p3 OK u0 931.51 GB 1953525168 5QJ0CKXJ
そして失敗は( からshow alarms
)です:
Ctl Date Severity Alarm Message
------------------------------------------------------------------------------
c0 [Sun Nov 20 07:47:23 2011] INFO Rebuild started: unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Drive ECC error reported: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Source drive error occurred: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Rebuild failed: unit=0
c0 [Sun Nov 20 08:20:12 2011] INFO Rebuild paused: unit=0
私考える何が起こったかというと、p0 が失敗し、その後 p1 に ECC エラーが発生した (つまり、データが消失した) ということです。しかし...そうではないかもしれません。再構築率は 97% のままですが、このエラーを回避できません。
私の知る限り、以前の管理者が定期的な検証をオフにしたため、この状態になりました。これは、3Ware RAID でほとんどの人が心配することではありません。
アップデート
数日間酷使した後、IgnoreECC ビットを実行して再構築しましたが、データは壊れてしまいました。残念です。
答え1
ECC エラーは、ドライブ上に読み取り不可能なセクターが少なくとも 1 つあることを意味します。ただし、運が良ければ、そのセクターは実際にはそのボリュームにあるファイルシステムによって使用されていない可能性があり、この状態でもアレイからデータをコピーできる可能性があります。
再構築中に ECC エラーを無視するオプションもいくつかあります。
/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off
ただし、これらのオプションを使用すると、不良セクターの影響を受けた RAID ストライプが破損します (この場合、カードが正確に何を行うかは不明です。ストライプ全体をゼロに置き換えたり、ランダム データに置き換えたりする可能性があります)。そのため、「回復された」アレイには実際には検出できない破損がある可能性があります (影響を受けたストライプが何らかのデータ ファイルの途中にあった場合)。再構築を試みる前に、アレイからデータを別の場所にコピーしておく方が安全です (少なくとも、不良領域を読み取ろうとするとエラーが発生するはずです)。
読み取り不可能なセクターを早期に検出し、故障し始めたドライブを交換できるように、アレイの定期検証を設定する必要があります。
答え2
物理ドライブ(p0)がDEGRADED状態になったことは一度もありませんが、ECCエラードライブやDEGRADEDドライブを以下の方法で取り外すことで元に戻せる可能性があります。
/c0 p1 remove
そして再スキャンを実行する
/c0 rescan
それらをレイドユニットに戻すには
maint rebuild c0 u0 p1
ECC エラーで故障した SATA ドライブは、再び故障する前に数時間だけでも復活できました。
答え3
データが消失している可能性が非常に高いです。ECC エラーは、このディスクからの読み取り中に回復不可能なエラーが発生したことを意味します。
バックアップがない場合は、アレイの現在の状態をダンプしてみることができます。コントローラはデータが失われたのか、単に空き領域があるのかを知らないため (ファイル システムに関する洞察がないため)、これが可能である可能性があります。