
これは Mint 21.1 x64 Linux システムで、何年もかけて RAID アレイにディスクを追加し、現在では 10 台の 3TB アレイ 1 つと 5 台の 6TB アレイ 1 つになっています。4 台の HD がアレイから外れ、それぞれ 2 台ずつ外れましたが、これは 1 つのコントローラが故障したためと思われます。コントローラを交換しましたが、アレイは正常に機能していません。mdadm --assemble
どちらのアレイも起動できない、ディスクが足りない (それぞれ 2 台が故障していますが、驚くことではありません)、mdadm --run
I/O エラーが報告されます (syslog によると、これはすべてのドライブを起動できないためであるようですが、明らかに問題のある 2 台のドライブを起動しようとしたという兆候はありません)。ただし、mdadm --examine
故障したディスクはまだ表示され、完全に正常に見えます。正常に機能しているドライブからの出力は次のとおりです。
mdadm --examine /dev/sda
/dev/sda:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x1
Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
Name : DataBackup:back (local to host DataBackup)
Creation Time : Mon Feb 15 13:43:15 2021
Raid Level : raid5
Raid Devices : 10
Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
Data Offset : 264192 sectors
Super Offset : 8 sectors
Unused Space : before=264112 sectors, after=944 sectors
State : clean
Device UUID : 6e072616:2f7079b0:b336c1a7:f222c711
Internal Bitmap : 8 sectors from superblock
Update Time : Sun Apr 2 04:30:27 2023
Bad Block Log : 512 entries available at offset 24 sectors
Checksum : 2faf0b93 - correct
Events : 21397
Layout : left-symmetric
Chunk Size : 512K
Device Role : Active device 9
Array State : AAAAAA..AA ('A' == active, '.' == missing, 'R' == replacing)
故障したドライブからの出力は次のとおりです。
mdadm --examine /dev/sdk
/dev/sdk:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x1
Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
Name : DataBackup:back (local to host DataBackup)
Creation Time : Mon Feb 15 13:43:15 2021
Raid Level : raid5
Raid Devices : 10
Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
Data Offset : 264192 sectors
Super Offset : 8 sectors
Unused Space : before=264112 sectors, after=944 sectors
State : clean
Device UUID : d62b85bc:fb108c56:4710850c:477c0c06
Internal Bitmap : 8 sectors from superblock
Update Time : Sun Apr 2 04:27:31 2023
Bad Block Log : 512 entries available at offset 24 sectors
Checksum : d53202fe - correct
Events : 21392
Layout : left-symmetric
Chunk Size : 512K
Device Role : Active device 6
Array State : AAAAAAAAAA ('A' == active, '.' == missing, 'R' == replacing)
編集: 以下は、2 番目に故障したドライブからの --examine レポートです。ご覧のとおり、アレイ全体がオフラインになったのと同時に故障しました。
# mdadm --examine /dev/sdl
/dev/sdl:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x1
Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
Name : DataBackup:back (local to host DataBackup)
Creation Time : Mon Feb 15 13:43:15 2021
Raid Level : raid5
Raid Devices : 10
Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
Data Offset : 264192 sectors
Super Offset : 8 sectors
Unused Space : before=264112 sectors, after=944 sectors
State : clean
Device UUID : 35ebf7d9:55148a4a:e190671d:6db1c2cf
Internal Bitmap : 8 sectors from superblock
Update Time : Sun Apr 2 04:27:31 2023
Bad Block Log : 512 entries available at offset 24 sectors
Checksum : c13b7b79 - correct
Events : 21392
Layout : left-symmetric
Chunk Size : 512K
Device Role : Active device 7
Array State : AAAAAAAAAA ('A' == active, '.' == missing, 'R' == replacing)
2 番目のアレイ (5x6TB) は、2 分後に 2 つのディスクが停止したためオフラインになりました。このアレイの 2 つの故障したディスクと、もう 1 つのアレイの 2 つの故障したディスクはすべて、1 つの 4 ポート SATA コントローラ カードに接続されていましたが、もちろん、このカードは交換されました。
これについて私が興味深いと思う主な点は、故障したドライブが稼働中であると報告しているように見えるものの、mdadm
それに同意していないことです。4journalctl
月 2 日まで遡ることはできないようですので、何が起こったのかを突き止めることはできないかもしれません。この怪物をオンラインに戻すために何ができるかについて、何かアイデアをお持ちの方はいらっしゃいますか?
答え1
- 破壊的な可能性のあるコマンドを実行する前に、アレイ内のすべてのドライブのイメージレベルのバックアップを必ず作成してください
mdadm
。これらのバックアップがあれば、後でボックス外の VM でリカバリを試みることができます。 Update time
の出力で障害が発生したドライブのフィールドを調べてmdadm --examine /dev/sdX
、ドライブがアレイから外れたときの正確なイベント シーケンスを特定します。最初のドライブ障害が気付かれないこともあり、その古いドライブをオンラインにすると、ファイル システムをマウントしようとしたときに壊滅的な障害が発生することがあります。- この場合、両方のドライブが同時に故障したため、
mdadm --assemble --force /dev/mdX
または を使用してアレイを強制的にオンラインにすることは安全ですmdadm --assemble --force --scan
。 そうでない場合は、 にアレイ メンバー ドライブを指定して、アレイから外れた最後のドライブのみを強制的にオンラインにする必要がありますmdadm --assemble --force /dev/mdX /dev/sda /dev/sdb missing /dev/sdd
。ドライブの順序が重要であることに注意してください。 - の明示的なデバイス リストのみで動作を開始できたため、
assemble
アレイは現在、/dev/sdh
オフラインとしてマークされ、劣化状態にあると考えられます。 の出力を調べてcat /proc/mdstat
これを確認し、バックアップを実行し、ハードウェアのトラブルシューティングを行ってから、アレイを完全に再構築してください。