
Ich habe ein RAID bus controller: 3ware Inc 9550SX SATA-II RAID PCI-X
mit vier Festplatten, mit folgendem aktuellen Zustand:
tw_cli> /c1 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 REBUILD-PAUSED 0% - 256K 931.303 OFF OFF
u1 SPARE OK - - - 465.753 - OFF
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 OK u0 465.76 GB 976773168 WD-WCAS87320631
p1 OK u0 465.76 GB 976773168 WD-WCAS87223554
p2 DEGRADED u0 465.76 GB 976773168 WD-WCAS87159042
p3 OK u1 465.76 GB 976773168 WD-WMAYP6812676
p4 NOT-PRESENT - - - -
p5 NOT-PRESENT - - - -
p6 NOT-PRESENT - - - -
p7 NOT-PRESENT - - - -
Der Neuaufbau ist aktiviert. Manchmal startet es (Status: REBUILDING
), scheint etwa eine Minute lang Dinge zu tun und fällt dann auf zurück REBUILD-PAUSED
. Der Wert %RCmpl
geht nie über 0 %. Log ( /var/log/messages
) sagt etwa alle fünf Minuten:
Dec 5 23:41:57 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x000B): Rebuild started:unit=0.
Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x003A): Drive power on reset detected:port=1.
Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x001A): Drive inserted:port=1.
Ich bin neu auf diesem Gebiet und habe die Maschine und die Wartungsaufgaben übernommen. Was könnte das bedeuten? Wie groß ist das Problem, das ich habe? Was soll ich tun?
Neue Events
Dec 6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current<4>3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec 6 00:25:42 somelinux kernel: : sense key=0x2
Dec 6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec 6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec 6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec 6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec 6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec 6 00:25:43 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x001E): Unit inoperable:unit=0.
Dec 6 00:28:02 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec 6 00:28:02 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec 6 00:28:02 somelinux kernel: end_request: I/O error, dev sdc, sector 104927621
Dec 6 00:28:02 somelinux kernel: xfs_force_shutdown(dm-0,0x2) called from line 956 of file fs/xfs/xfs_log.c. Return address = 0xc028860d
... Und ...
tw_cli> /c1 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 INOPERABLE - - 256K 931.303 OFF OFF
u1 SPARE OK - - - 465.753 - OFF
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 OK u0 465.76 GB 976773168 WD-WCAS87320631
p1 NOT-PRESENT - - - -
p2 OK u0 465.76 GB 976773168 WD-WCAS87159042
p3 OK u1 465.76 GB 976773168 WD-WMAYP6812676
p4 NOT-PRESENT - - - -
p5 NOT-PRESENT - - - -
p6 NOT-PRESENT - - - -
p7 NOT-PRESENT - - - -
Es scheint, dass P1 in einem wirklich schlechten Zustand ist.
Nachverfolgen
Es funktionierte immer einige Minuten/Stunden, bevor es nicht mehr FUNKTIONIERTE. Auf diese Weise konnte ich eine Sicherungskopie der Daten erstellen. Ich hatte großes Glück. Ich habe gelernt, dass ich besser aufpassen muss, sonst macht redundanter Speicher keinen Sinn.
Altes Array gelöscht. Fehlerhafte Festplatte entfernt. Neues Array mit 3 guten Mitgliedern definiert. Dateisysteme neu erstellt. Backups wiederhergestellt. Happy End.
Antwort1
Machen Sie sich bereit.
Ihr RAID 5 ist tot:
u0 RAID-5 INOPERABLE - - 256K 931.303 OFF OFF
Das ist auch der Grund für die SCSI-/E/A-Fehler. Ihr RAID 5 besteht nicht aus 4 Festplatten, sondern nur aus 3. Die vierte Festplatte, p3, befindet sich in ihrer eigenen Einheit, u1, nicht in der primären Einheit, u0.
Dem von Ihnen bereitgestellten Text zufolge ist wahrscheinlich Folgendes passiert:
- p2 ist degradiert und Sie haben versucht, es neu zu erstellen
- Währenddessen wurde p1 nicht mehr erkannt
- RAID 5-Fehler, da 2 Laufwerke nicht funktionierten/nicht erkannt wurden
Die Tatsache, dass p2 jetzt „OK“ anzeigt, ist im Hinblick auf den Status des RAID 5 irrelevant.
Ich hoffe, dieser Server hat Backups, denn es ist unwahrscheinlich, dass Sie das wiederherstellen können. Ich glaube auch nicht, dass tw_cli das Online-Forcieren eines Arrays unterstützt. Obwohl Ihnen das Folgende nicht dabei hilft, Daten aus diesem ausgefallenen Array abzurufen, empfehle ich Folgendes:
- Ersetzen Sie das ausgefallene/fehlende Laufwerk (p1).
- Da die Karte RAID 6 nicht unterstützt, können wir das nicht verwenden (empfohlen für große Laufwerke), also müssen wir RAID 10 verwenden. Mit RAID 10 neu erstellen, die Partitionen erstellen, formatieren/mounten und /etc/fstab aktualisieren.
- Wiederherstellen aus den Backups Ich hoffe, Sie haben
Wer auch immer dies als RAID 5 mit einem Ersatzlaufwerk eingerichtet hat (es ist auch nicht richtig eingerichtet), war nicht der Hellste.