RAID アレイが故障し、再起動できなくなりました。mdadm --examine はドライブが正常であることを表示しますが、--assemble は 2 つのディスクがないために失敗します。

RAID アレイが故障し、再起動できなくなりました。mdadm --examine はドライブが正常であることを表示しますが、--assemble は 2 つのディスクがないために失敗します。

これは Mint 21.1 x64 Linux システムで、何年もかけて RAID アレイにディスクを追加し、現在では 10 台の 3TB アレイ 1 つと 5 台の 6TB アレイ 1 つになっています。4 台の HD がアレイから外れ、それぞれ 2 台ずつ外れましたが、これは 1 つのコントローラが故障したためと思われます。コントローラを交換しましたが、アレイは正常に機能していません。mdadm --assembleどちらのアレイも起動できない、ディスクが足りない (それぞれ 2 台が故障していますが、驚くことではありません)、mdadm --runI/O エラーが報告されます (syslog によると、これはすべてのドライブを起動できないためであるようですが、明らかに問題のある 2 台のドライブを起動しようとしたという兆候はありません)。ただし、mdadm --examine故障したディスクはまだ表示され、完全に正常に見えます。正常に機能しているドライブからの出力は次のとおりです。

mdadm --examine /dev/sda
/dev/sda:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x1
     Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
           Name : DataBackup:back  (local to host DataBackup)
  Creation Time : Mon Feb 15 13:43:15 2021
     Raid Level : raid5
   Raid Devices : 10

 Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
     Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
  Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
    Data Offset : 264192 sectors
   Super Offset : 8 sectors
   Unused Space : before=264112 sectors, after=944 sectors
          State : clean
    Device UUID : 6e072616:2f7079b0:b336c1a7:f222c711

Internal Bitmap : 8 sectors from superblock
    Update Time : Sun Apr  2 04:30:27 2023
  Bad Block Log : 512 entries available at offset 24 sectors
       Checksum : 2faf0b93 - correct
         Events : 21397

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 9
   Array State : AAAAAA..AA ('A' == active, '.' == missing, 'R' == replacing)

故障したドライブからの出力は次のとおりです。

mdadm --examine /dev/sdk
/dev/sdk:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x1
     Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
           Name : DataBackup:back  (local to host DataBackup)
  Creation Time : Mon Feb 15 13:43:15 2021
     Raid Level : raid5
   Raid Devices : 10

 Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
     Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
  Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
    Data Offset : 264192 sectors
   Super Offset : 8 sectors
   Unused Space : before=264112 sectors, after=944 sectors
          State : clean
    Device UUID : d62b85bc:fb108c56:4710850c:477c0c06

Internal Bitmap : 8 sectors from superblock
    Update Time : Sun Apr  2 04:27:31 2023
  Bad Block Log : 512 entries available at offset 24 sectors
       Checksum : d53202fe - correct
         Events : 21392

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 6
   Array State : AAAAAAAAAA ('A' == active, '.' == missing, 'R' == replacing)

編集: 以下は、2 番目に故障したドライブからの --examine レポートです。ご覧のとおり、アレイ全体がオフラインになったのと同時に故障しました。

# mdadm --examine /dev/sdl
/dev/sdl:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x1
     Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
           Name : DataBackup:back  (local to host DataBackup)
  Creation Time : Mon Feb 15 13:43:15 2021
     Raid Level : raid5
   Raid Devices : 10

 Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
     Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
  Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
    Data Offset : 264192 sectors
   Super Offset : 8 sectors
   Unused Space : before=264112 sectors, after=944 sectors
          State : clean
    Device UUID : 35ebf7d9:55148a4a:e190671d:6db1c2cf

Internal Bitmap : 8 sectors from superblock
    Update Time : Sun Apr  2 04:27:31 2023
  Bad Block Log : 512 entries available at offset 24 sectors
       Checksum : c13b7b79 - correct
         Events : 21392

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 7
   Array State : AAAAAAAAAA ('A' == active, '.' == missing, 'R' == replacing)

2 番目のアレイ (5x6TB) は、2 分後に 2 つのディスクが停止したためオフラインになりました。このアレイの 2 つの故障したディスクと、もう 1 つのアレイの 2 つの故障したディスクはすべて、1 つの 4 ポート SATA コントローラ カードに接続されていましたが、もちろん、このカードは交換されました。

これについて私が興味深いと思う主な点は、故障したドライブが稼働中であると報告しているように見えるものの、mdadmそれに同意していないことです。4journalctl月 2 日まで遡ることはできないようですので、何が起こったのかを突き止めることはできないかもしれません。この怪物をオンラインに戻すために何ができるかについて、何かアイデアをお持ちの方はいらっしゃいますか?

答え1

  1. 破壊的な可能性のあるコマンドを実行する前に、アレイ内のすべてのドライブのイメージレベルのバックアップを必ず作成してくださいmdadm。これらのバックアップがあれば、後でボックス外の VM でリカバリを試みることができます。
  2. Update timeの出力で障害が発生したドライブのフィールドを調べてmdadm --examine /dev/sdX、ドライブがアレイから外れたときの正確なイベント シーケンスを特定します。最初のドライブ障害が気付かれないこともあり、その古いドライブをオンラインにすると、ファイル システムをマウントしようとしたときに壊滅的な障害が発生することがあります。
  3. この場合、両方のドライブが同時に故障したため、mdadm --assemble --force /dev/mdXまたは を使用してアレイを強制的にオンラインにすることは安全ですmdadm --assemble --force --scan。 そうでない場合は、 にアレイ メンバー ドライブを指定して、アレイから外れた最後のドライブのみを強制的にオンラインにする必要がありますmdadm --assemble --force /dev/mdX /dev/sda /dev/sdb missing /dev/sdd。ドライブの順序が重要であることに注意してください。
  4. の明示的なデバイス リストのみで動作を開始できたため、assembleアレイは現在、/dev/sdhオフラインとしてマークされ、劣化状態にあると考えられます。 の出力を調べてcat /proc/mdstatこれを確認し、バックアップを実行し、ハードウェアのトラブルシューティングを行ってから、アレイを完全に再構築してください。

関連情報