
Dies ist ein Mint 21.1 x64 Linux-System, dem im Laufe der Jahre Festplatten zu RAID-Arrays hinzugefügt wurden, bis wir nun ein Array mit 10 3 TB und ein Array mit 5 6 TB haben. Vier Festplatten fielen aus den Arrays aus, zwei von jedem, anscheinend aufgrund eines Controller-Fehlers. Wir haben Controller ausgetauscht, aber die Arrays funktionieren dadurch nicht wieder. mdadm --assemble
meldet, dass keines der Arrays gestartet werden kann, nicht genügend Festplatten (bei zwei ausgefallenen in jedem, was mich nicht überrascht); mdadm --run
meldet E/A-Fehler (Syslog scheint zu suggerieren, dass dies daran liegt, dass nicht alle Festplatten gestartet werden können, aber es gibt keinen Hinweis darauf, dass versucht wurde, die beiden anscheinend nicht funktionierenden zu starten), aber ich kann immer noch mdadm --examine
ausgefallene Festplatten anzeigen und sie sehen absolut normal aus. Hier ist die Ausgabe von einer funktionsfähigen Festplatte:
mdadm --examine /dev/sda
/dev/sda:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x1
Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
Name : DataBackup:back (local to host DataBackup)
Creation Time : Mon Feb 15 13:43:15 2021
Raid Level : raid5
Raid Devices : 10
Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
Data Offset : 264192 sectors
Super Offset : 8 sectors
Unused Space : before=264112 sectors, after=944 sectors
State : clean
Device UUID : 6e072616:2f7079b0:b336c1a7:f222c711
Internal Bitmap : 8 sectors from superblock
Update Time : Sun Apr 2 04:30:27 2023
Bad Block Log : 512 entries available at offset 24 sectors
Checksum : 2faf0b93 - correct
Events : 21397
Layout : left-symmetric
Chunk Size : 512K
Device Role : Active device 9
Array State : AAAAAA..AA ('A' == active, '.' == missing, 'R' == replacing)
Und hier ist die Ausgabe eines ausgefallenen Laufwerks:
mdadm --examine /dev/sdk
/dev/sdk:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x1
Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
Name : DataBackup:back (local to host DataBackup)
Creation Time : Mon Feb 15 13:43:15 2021
Raid Level : raid5
Raid Devices : 10
Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
Data Offset : 264192 sectors
Super Offset : 8 sectors
Unused Space : before=264112 sectors, after=944 sectors
State : clean
Device UUID : d62b85bc:fb108c56:4710850c:477c0c06
Internal Bitmap : 8 sectors from superblock
Update Time : Sun Apr 2 04:27:31 2023
Bad Block Log : 512 entries available at offset 24 sectors
Checksum : d53202fe - correct
Events : 21392
Layout : left-symmetric
Chunk Size : 512K
Device Role : Active device 6
Array State : AAAAAAAAAA ('A' == active, '.' == missing, 'R' == replacing)
Bearbeiten: Hier ist der Prüfbericht des zweiten ausgefallenen Laufwerks. Wie Sie sehen, fiel es zur selben Zeit aus, als das gesamte Array offline ging.
# mdadm --examine /dev/sdl
/dev/sdl:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x1
Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
Name : DataBackup:back (local to host DataBackup)
Creation Time : Mon Feb 15 13:43:15 2021
Raid Level : raid5
Raid Devices : 10
Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
Data Offset : 264192 sectors
Super Offset : 8 sectors
Unused Space : before=264112 sectors, after=944 sectors
State : clean
Device UUID : 35ebf7d9:55148a4a:e190671d:6db1c2cf
Internal Bitmap : 8 sectors from superblock
Update Time : Sun Apr 2 04:27:31 2023
Bad Block Log : 512 entries available at offset 24 sectors
Checksum : c13b7b79 - correct
Events : 21392
Layout : left-symmetric
Chunk Size : 512K
Device Role : Active device 7
Array State : AAAAAAAAAA ('A' == active, '.' == missing, 'R' == replacing)
Das zweite Array (5 x 6 TB) fiel zwei Minuten später offline, als zwei Festplatten den Dienst quittierten. Die beiden ausgefallenen Festplatten in diesem Array und die beiden in dem anderen Array waren alle mit einer einzigen 4-Port-SATA-Controllerkarte verbunden, die inzwischen natürlich ersetzt wurde.
Das Interessante daran ist für mich, dass das ausgefallene Laufwerk zwar angibt, dass es noch funktioniert, aber mdadm
nicht damit übereinstimmt. journalctl
Es scheint nicht bis zum 2. April zurückzureichen, also kann ich vielleicht nicht herausfinden, was passiert ist. Hat jemand eine Idee, was ich tun kann, um dieses Biest wieder online zu bringen?
Antwort1
- Erstellen Sie immer ein Image-Backup aller Laufwerke im Array, bevor Sie potenziell destruktive
mdadm
Befehle ausführen. Mit diesen Backups können Sie später eine Wiederherstellung auf einer externen VM versuchen. - Untersuchen Sie
Update time
das Feld für ausgefallene Laufwerke in der Ausgabe,mdadm --examine /dev/sdX
um die genaue Abfolge der Ereignisse zu ermitteln, bei denen Laufwerke aus dem Array fielen. Manchmal bleibt der erste Laufwerksausfall unbemerkt und das Onlineschalten dieses alten Laufwerks führt zu einem katastrophalen Fehler beim Versuch, ein Dateisystem zu mounten. - In Ihrem Fall fielen beide Laufwerke gleichzeitig aus, daher sollte es sicher sein, das Array mit
mdadm --assemble --force /dev/mdX
odermdadm --assemble --force --scan
online zu zwingen. Wenn dies nicht der Fall wäre, sollten Sie nur das letzte Laufwerk online zwingen, das aus dem Array ausgefallen ist, indem Sie die Array-Mitgliedslaufwerke für angeben.mdadm --assemble --force /dev/mdX /dev/sda /dev/sdb missing /dev/sdd
Beachten Sie, dass die Reihenfolge der Laufwerke wichtig ist. - Da Sie die Dinge nur mit einer expliziten Geräteliste zum Laufen bringen konnten,
assemble
glaube ich, dass sich Ihr Array derzeit in einem herabgesetzten Zustand befindet und als/dev/sdh
offline markiert ist. Sehen Sie sich die Ausgabe von an,cat /proc/mdstat
um dies festzustellen, führen Sie eine Sicherung durch, beheben Sie Probleme mit Ihrer Hardware und bauen Sie Ihr Array danach vollständig neu auf.