3ware 9690SA-8I のアレイを再構築中

2024-6-19 • tag-icon

TL;DRバージョン

RAID10アレイは正常に動作しています
メンテナンスの一環としてサーバーを再起動する
アレイが操作不能（まったくアクセスできない）
コントローラのログには、1つのドライブが不良であると表示されています
ドライブを取り外してテスト - 不良セクタは見つかりませんでした
念のため、ドライブを正常なものと交換してください。
コントローラは新しいドライブにアレイを再構築しません
たった1台のドライブが故障しただけでも、コントローラはRAID10アレイ全体にアクセスできなくなりました。

さて、長くて詳細なバージョンは次の通りです。

Ubuntu 1110 サーバー上で実行されている 3ware 9690 カード上に RAID10 (8x1TB) アレイがあります。

カーネルの更新があったので、再起動をスケジュールしましたが、その後アレイにアクセスできなくなりました。アレイ内のドライブが故障したというステータスを確認しましたが、コントローラは単に劣化したのではなく、アレイ全体を「動作不能」状態にしていました (これで RAID の意味がなくなる ;-)。

「故障した」ドライブを取り出した後、簡単なテストを実行して、不良セクタが見つからず完全に機能していることを確認します。

ドライブを戻そうとしましたが、アレイは依然としてディスクを劣化状態 (シリアル番号か何かを記憶している??) としてマークし、アレイ全体を動作不能としてマークします...

そこで、正常に機能することがわかっているドライブ (同じ容量ではないが、容量が大きい - それでも動作するはず) と交換し、新しいドライブを代替として再構築を開始します。これは、「(0x0B:0x0033): ユニットビジー: ユニット 0 で再構築を開始できませんでした」というエラーで即座に失敗します。ユニットはマウントされていないため、ビジー状態ではないはずです (カード自体は lshw でリストされますが、カードが提供するアレイはリストされません)。

私は今、かなり行き詰まっています。RAID10 で 1 台のドライブに障害が発生しただけで、アレイ全体にアクセスできなくなるのはなぜか理解できません。劣化は理解できますが、アクセスできないのでしょうか? 再起動前は完全に機能していたので、コントローラーに障害があるとは思いません。

> info c0

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-10   INOPERABLE     -       -       256K    3725.25   Ri     ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            SAMSUNG HD103SJ
p1    OK             u0   931.51 GB SATA  1   -            SAMSUNG HD103SJ
p2    OK             u0   931.51 GB SATA  2   -            SAMSUNG HD103SJ
p3    OK             u0   931.51 GB SATA  3   -            SAMSUNG HD103SJ
p4    OK             u0   931.51 GB SATA  4   -            SAMSUNG HD103SJ
p5    OK             -    1.36 TB   SATA  5   -            ST31500341AS
p6    OK             u0   931.51 GB SATA  6   -            SAMSUNG HD103SJ
p7    OK             u0   931.51 GB SATA  7   -            SAMSUNG HD103SJ

> /c0/u0 start rebuild disk=5

Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed.
(0x0B:0x0033): Unit busy

答え1

LSI サポートに連絡したところ、2 次レベルの技術者の 1 人がスクリプトとファームウェアハックを書いて、アレイを通常の劣化状態にすることにしました。
そこからは、通常どおり、新しいディスクをアレイに接続して再構築する作業でした。

答え1

関連情報