
TL;DRバージョン
- RAID10アレイは正常に動作しています
- メンテナンスの一環としてサーバーを再起動する
- アレイが操作不能(まったくアクセスできない)
- コントローラのログには、1つのドライブが不良であると表示されています
- ドライブを取り外してテスト - 不良セクタは見つかりませんでした
- 念のため、ドライブを正常なものと交換してください。
- コントローラは新しいドライブにアレイを再構築しません
- たった1台のドライブが故障しただけでも、コントローラはRAID10アレイ全体にアクセスできなくなりました。
さて、長くて詳細なバージョンは次の通りです。
Ubuntu 1110 サーバー上で実行されている 3ware 9690 カード上に RAID10 (8x1TB) アレイがあります。
カーネルの更新があったので、再起動をスケジュールしましたが、その後アレイにアクセスできなくなりました。アレイ内のドライブが故障したというステータスを確認しましたが、コントローラは単に劣化したのではなく、アレイ全体を「動作不能」状態にしていました (これで RAID の意味がなくなる ;-)。
「故障した」ドライブを取り出した後、簡単なテストを実行して、不良セクタが見つからず完全に機能していることを確認します。
ドライブを戻そうとしましたが、アレイは依然としてディスクを劣化状態 (シリアル番号か何かを記憶している??) としてマークし、アレイ全体を動作不能としてマークします...
そこで、正常に機能することがわかっているドライブ (同じ容量ではないが、容量が大きい - それでも動作するはず) と交換し、新しいドライブを代替として再構築を開始します。これは、「(0x0B:0x0033): ユニット ビジー: ユニット 0 で再構築を開始できませんでした」というエラーで即座に失敗します。ユニットはマウントされていないため、ビジー状態ではないはずです (カード自体は lshw でリストされますが、カードが提供するアレイはリストされません)。
私は今、かなり行き詰まっています。RAID10 で 1 台のドライブに障害が発生しただけで、アレイ全体にアクセスできなくなるのはなぜか理解できません。劣化は理解できますが、アクセスできないのでしょうか? 再起動前は完全に機能していたので、コントローラーに障害があるとは思いません。
> info c0
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-10 INOPERABLE - - 256K 3725.25 Ri ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 931.51 GB SATA 0 - SAMSUNG HD103SJ
p1 OK u0 931.51 GB SATA 1 - SAMSUNG HD103SJ
p2 OK u0 931.51 GB SATA 2 - SAMSUNG HD103SJ
p3 OK u0 931.51 GB SATA 3 - SAMSUNG HD103SJ
p4 OK u0 931.51 GB SATA 4 - SAMSUNG HD103SJ
p5 OK - 1.36 TB SATA 5 - ST31500341AS
p6 OK u0 931.51 GB SATA 6 - SAMSUNG HD103SJ
p7 OK u0 931.51 GB SATA 7 - SAMSUNG HD103SJ
> /c0/u0 start rebuild disk=5
Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed.
(0x0B:0x0033): Unit busy
答え1
LSI サポートに連絡したところ、2 次レベルの技術者の 1 人がスクリプトとファームウェア ハックを書いて、アレイを通常の劣化状態にすることにしました。
そこからは、通常どおり、新しいディスクをアレイに接続して再構築する作業でした。