RAID-Arrays sind ausgefallen und werden jetzt nicht neu gestartet. mdadm --examine zeigt ein Laufwerk an, das in Ordnung ist, aber --assemble schlägt fehl, da zwei Festplatten fehlen.

RAID-Arrays sind ausgefallen und werden jetzt nicht neu gestartet. mdadm --examine zeigt ein Laufwerk an, das in Ordnung ist, aber --assemble schlägt fehl, da zwei Festplatten fehlen.

Dies ist ein Mint 21.1 x64 Linux-System, dem im Laufe der Jahre Festplatten zu RAID-Arrays hinzugefügt wurden, bis wir nun ein Array mit 10 3 TB und ein Array mit 5 6 TB haben. Vier Festplatten fielen aus den Arrays aus, zwei von jedem, anscheinend aufgrund eines Controller-Fehlers. Wir haben Controller ausgetauscht, aber die Arrays funktionieren dadurch nicht wieder. mdadm --assemblemeldet, dass keines der Arrays gestartet werden kann, nicht genügend Festplatten (bei zwei ausgefallenen in jedem, was mich nicht überrascht); mdadm --runmeldet E/A-Fehler (Syslog scheint zu suggerieren, dass dies daran liegt, dass nicht alle Festplatten gestartet werden können, aber es gibt keinen Hinweis darauf, dass versucht wurde, die beiden anscheinend nicht funktionierenden zu starten), aber ich kann immer noch mdadm --examineausgefallene Festplatten anzeigen und sie sehen absolut normal aus. Hier ist die Ausgabe von einer funktionsfähigen Festplatte:

mdadm --examine /dev/sda
/dev/sda:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x1
     Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
           Name : DataBackup:back  (local to host DataBackup)
  Creation Time : Mon Feb 15 13:43:15 2021
     Raid Level : raid5
   Raid Devices : 10

 Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
     Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
  Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
    Data Offset : 264192 sectors
   Super Offset : 8 sectors
   Unused Space : before=264112 sectors, after=944 sectors
          State : clean
    Device UUID : 6e072616:2f7079b0:b336c1a7:f222c711

Internal Bitmap : 8 sectors from superblock
    Update Time : Sun Apr  2 04:30:27 2023
  Bad Block Log : 512 entries available at offset 24 sectors
       Checksum : 2faf0b93 - correct
         Events : 21397

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 9
   Array State : AAAAAA..AA ('A' == active, '.' == missing, 'R' == replacing)

Und hier ist die Ausgabe eines ausgefallenen Laufwerks:

mdadm --examine /dev/sdk
/dev/sdk:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x1
     Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
           Name : DataBackup:back  (local to host DataBackup)
  Creation Time : Mon Feb 15 13:43:15 2021
     Raid Level : raid5
   Raid Devices : 10

 Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
     Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
  Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
    Data Offset : 264192 sectors
   Super Offset : 8 sectors
   Unused Space : before=264112 sectors, after=944 sectors
          State : clean
    Device UUID : d62b85bc:fb108c56:4710850c:477c0c06

Internal Bitmap : 8 sectors from superblock
    Update Time : Sun Apr  2 04:27:31 2023
  Bad Block Log : 512 entries available at offset 24 sectors
       Checksum : d53202fe - correct
         Events : 21392

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 6
   Array State : AAAAAAAAAA ('A' == active, '.' == missing, 'R' == replacing)

Bearbeiten: Hier ist der Prüfbericht des zweiten ausgefallenen Laufwerks. Wie Sie sehen, fiel es zur selben Zeit aus, als das gesamte Array offline ging.

# mdadm --examine /dev/sdl
/dev/sdl:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x1
     Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
           Name : DataBackup:back  (local to host DataBackup)
  Creation Time : Mon Feb 15 13:43:15 2021
     Raid Level : raid5
   Raid Devices : 10

 Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
     Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
  Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
    Data Offset : 264192 sectors
   Super Offset : 8 sectors
   Unused Space : before=264112 sectors, after=944 sectors
          State : clean
    Device UUID : 35ebf7d9:55148a4a:e190671d:6db1c2cf

Internal Bitmap : 8 sectors from superblock
    Update Time : Sun Apr  2 04:27:31 2023
  Bad Block Log : 512 entries available at offset 24 sectors
       Checksum : c13b7b79 - correct
         Events : 21392

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 7
   Array State : AAAAAAAAAA ('A' == active, '.' == missing, 'R' == replacing)

Das zweite Array (5 x 6 TB) fiel zwei Minuten später offline, als zwei Festplatten den Dienst quittierten. Die beiden ausgefallenen Festplatten in diesem Array und die beiden in dem anderen Array waren alle mit einer einzigen 4-Port-SATA-Controllerkarte verbunden, die inzwischen natürlich ersetzt wurde.

Das Interessante daran ist für mich, dass das ausgefallene Laufwerk zwar angibt, dass es noch funktioniert, aber mdadmnicht damit übereinstimmt. journalctlEs scheint nicht bis zum 2. April zurückzureichen, also kann ich vielleicht nicht herausfinden, was passiert ist. Hat jemand eine Idee, was ich tun kann, um dieses Biest wieder online zu bringen?

Antwort1

  1. Erstellen Sie immer ein Image-Backup aller Laufwerke im Array, bevor Sie potenziell destruktive mdadmBefehle ausführen. Mit diesen Backups können Sie später eine Wiederherstellung auf einer externen VM versuchen.
  2. Untersuchen Sie Update timedas Feld für ausgefallene Laufwerke in der Ausgabe, mdadm --examine /dev/sdXum die genaue Abfolge der Ereignisse zu ermitteln, bei denen Laufwerke aus dem Array fielen. Manchmal bleibt der erste Laufwerksausfall unbemerkt und das Onlineschalten dieses alten Laufwerks führt zu einem katastrophalen Fehler beim Versuch, ein Dateisystem zu mounten.
  3. In Ihrem Fall fielen beide Laufwerke gleichzeitig aus, daher sollte es sicher sein, das Array mit mdadm --assemble --force /dev/mdXoder mdadm --assemble --force --scanonline zu zwingen. Wenn dies nicht der Fall wäre, sollten Sie nur das letzte Laufwerk online zwingen, das aus dem Array ausgefallen ist, indem Sie die Array-Mitgliedslaufwerke für angeben. mdadm --assemble --force /dev/mdX /dev/sda /dev/sdb missing /dev/sddBeachten Sie, dass die Reihenfolge der Laufwerke wichtig ist.
  4. Da Sie die Dinge nur mit einer expliziten Geräteliste zum Laufen bringen konnten, assembleglaube ich, dass sich Ihr Array derzeit in einem herabgesetzten Zustand befindet und als /dev/sdhoffline markiert ist. Sehen Sie sich die Ausgabe von an, cat /proc/mdstatum dies festzustellen, führen Sie eine Sicherung durch, beheben Sie Probleme mit Ihrer Hardware und bauen Sie Ihr Array danach vollständig neu auf.

verwandte Informationen