3ware: 再構築しようとするとドライブの電源がリセットされる

2024-6-20 • tag-icon

3ware: 再構築しようとするとドライブの電源がリセットされる

4 つのディスクを備えたがありRAID bus controller: 3ware Inc 9550SX SATA-II RAID PCI-X、現在の状態は次のとおりです。

tw_cli> /c1 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    REBUILD-PAUSED 0%      -       256K    931.303   OFF    OFF
u1    SPARE     OK             -       -       -       465.753   -      OFF

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     OK               u0     465.76 GB   976773168     WD-WCAS87320631
p1     OK               u0     465.76 GB   976773168     WD-WCAS87223554
p2     DEGRADED         u0     465.76 GB   976773168     WD-WCAS87159042
p3     OK               u1     465.76 GB   976773168     WD-WMAYP6812676
p4     NOT-PRESENT      -      -           -             -
p5     NOT-PRESENT      -      -           -             -
p6     NOT-PRESENT      -      -           -             -
p7     NOT-PRESENT      -      -           -             -

再構築が有効になっています。時々、(ステータス: REBUILDING) が起動し、1 分ほど処理を行った後、に戻りますREBUILD-PAUSED。が%RCmpl0% を超えることはありません。ログ ( /var/log/messages) には約 5 分ごとに次のように表示されます:

Dec  5 23:41:57 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x000B): Rebuild started:unit=0.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x003A): Drive power on reset detected:port=1.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x001A): Drive inserted:port=1.

私はこのハードウェアを初めて使用し、マシンと保守作業を引き継ぎました。これは何を示しているのでしょうか? 問題はどの程度の規模なのでしょうか? どうすればよいでしょうか?

新しいイベント

Dec  6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current<4>3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec  6 00:25:42 somelinux kernel: : sense key=0x2
Dec  6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec  6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec  6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec  6 00:25:43 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x001E): Unit inoperable:unit=0.
Dec  6 00:28:02 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec  6 00:28:02 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:28:02 somelinux kernel: end_request: I/O error, dev sdc, sector 104927621
Dec  6 00:28:02 somelinux kernel: xfs_force_shutdown(dm-0,0x2) called from line 956 of file fs/xfs/xfs_log.c.  Return address = 0xc028860d

... そして ...

tw_cli> /c1 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    INOPERABLE     -       -       256K    931.303   OFF    OFF
u1    SPARE     OK             -       -       -       465.753   -      OFF

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     OK               u0     465.76 GB   976773168     WD-WCAS87320631
p1     NOT-PRESENT      -      -           -             -
p2     OK               u0     465.76 GB   976773168     WD-WCAS87159042
p3     OK               u1     465.76 GB   976773168     WD-WMAYP6812676
p4     NOT-PRESENT      -      -           -             -
p5     NOT-PRESENT      -      -           -             -
p6     NOT-PRESENT      -      -           -             -
p7     NOT-PRESENT      -      -           -             -

p1 の状態が本当に悪いようです。

フォローアップ

動作不能になる前に、常に数分/数時間は動作していました。こうして、データのバックアップを取ることができました。とてもラッキーでした。もっと注意を払う必要があることを学びました。そうしないと、冗長ストレージを持つ意味がありません。

古いアレイを削除しました。故障したディスクを取り外しました。3 つの正常なメンバーで新しいアレイを定義しました。ファイルシステムを再作成しました。バックアップを復元しました。ハッピーエンドです。

答え1

覚悟してください。

RAID 5 が故障しました:

u0    RAID-5    INOPERABLE     -       -       256K    931.303   OFF    OFF

これは、SCSI / I/O エラーの原因でもあります。RAID 5 は 4 つのディスクではなく、3 つのディスクです。4 番目のディスク p3 は、プライマリユニット u0 ではなく、独自のユニット u1 にあります。

あなたが提供したテキストから判断すると、おそらく次のようなことが起こったと考えられます:

p2が劣化しており、再構築しようとしました
この間、p1は検出されなくなった
2 つのドライブが動作していない/検出されなかったため、RAID 5 に障害が発生しました

p2 が現在「OK」と表示されているという事実は、RAID 5 のステータスとは無関係です。

このサーバーにバックアップがあることを願っています。復旧できる可能性は低いからです。tw_cli はアレイの強制オンライン化もサポートしていないと思います。以下は、この障害が発生したアレイからデータを取得するのに役立ちませんが、次のことをお勧めします。

故障した/紛失したドライブを交換する (p1)
カードは RAID 6 をサポートしていないため、これを使用することはできません (大容量ドライブに推奨)。そのため、RAID 10 を使用する必要があります。RAID 10 で再作成し、パーティションを作成し、フォーマット/マウントして、/etc/fstab を更新します。
バックアップから復元してください

これをスペア付きの RAID 5 として設定した人は (これも適切に設定されていません)、あまり賢くありませんでした。

関連情報