
TL;DR-Version
- RAID10-Array funktioniert einwandfrei
- Server im Rahmen der Wartung neu starten
- Array nicht funktionsfähig (überhaupt kein Zugriff)
- Controller-Protokolle zeigen an, dass ein einzelnes Laufwerk defekt ist
- Laufwerk entfernen und testen – keine fehlerhaften Sektoren gefunden
- Gehen Sie auf Nummer sicher und ersetzen Sie das Laufwerk durch ein zweifelsfrei funktionierendes
- Der Controller kann das Array nicht auf einem neuen Laufwerk neu erstellen
- Selbst bei nur einem Laufwerksausfall hat der Controller das gesamte RAID10-Array unzugänglich gemacht
Und nun die lange, ausführliche Version:
Ich habe ein RAID10-Array (8 x 1 TB) auf einer 3ware 9690-Karte, die auf einem Ubuntu 1110-Server läuft.
Es gab ein Kernel-Update, also habe ich einen Neustart geplant, nach dem das Array nicht mehr erreichbar war. Ich habe den Status überprüft, ein Laufwerk im Array ist ausgefallen, aber der Controller hat das gesamte Array in einen „nicht betriebsfähigen“ Zustand versetzt, anstatt es einfach zu degradieren (was ist jetzt der Sinn des RAID ;-).
Nachdem ich das „tote“ Laufwerk herausgenommen habe, führe ich einen kurzen Test durch und stelle fest, dass es voll funktionsfähig ist und kein fehlerhafter Sektor zu finden ist.
Ich versuche, das Laufwerk wieder einzusetzen, aber das Array markiert die Festplatte immer noch als beschädigt (erinnern Sie sich an die Seriennummer oder so etwas??) und das gesamte Array als nicht funktionsfähig ...
Also tausche ich es gegen ein Laufwerk aus, von dem ich weiß, dass es funktioniert (nicht dieselbe Kapazität, aber eine höhere – sollte trotzdem funktionieren) und starte einen Neuaufbau mit dem neuen Laufwerk als Ersatz. Dies schlägt sofort mit dem Fehler „(0x0B:0x0033): Einheit beschäftigt: Neuaufbau auf Einheit 0 konnte nicht gestartet werden“ fehl. Die Einheit sollte nicht beschäftigt sein, da sie nicht gemountet ist (die Karte selbst wird mit lshw aufgelistet, das von ihr bereitgestellte Array jedoch nicht).
Ich bin jetzt ziemlich am Ende. Ich verstehe nicht, wie ein einzelner Laufwerksfehler bei einem RAID10 das gesamte Array unzugänglich machen kann. Degradiert könnte ich verstehen, aber unzugänglich?? Ich glaube nicht, dass der Controller defekt ist, da er vor dem Neustart voll funktionsfähig war.
> info c0
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-10 INOPERABLE - - 256K 3725.25 Ri ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 931.51 GB SATA 0 - SAMSUNG HD103SJ
p1 OK u0 931.51 GB SATA 1 - SAMSUNG HD103SJ
p2 OK u0 931.51 GB SATA 2 - SAMSUNG HD103SJ
p3 OK u0 931.51 GB SATA 3 - SAMSUNG HD103SJ
p4 OK u0 931.51 GB SATA 4 - SAMSUNG HD103SJ
p5 OK - 1.36 TB SATA 5 - ST31500341AS
p6 OK u0 931.51 GB SATA 6 - SAMSUNG HD103SJ
p7 OK u0 931.51 GB SATA 7 - SAMSUNG HD103SJ
> /c0/u0 start rebuild disk=5
Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed.
(0x0B:0x0033): Unit busy
Antwort1
Habe den LSI-Support kontaktiert und einer ihrer Techniker der zweiten Ebene war verrückt danach, ein Skript und einen Firmware-Hack zu schreiben, um das Array in einen normalen, verschlechterten Zustand zu versetzen.
Von da an war es ganz normal, eine neue Festplatte zum Array hinzuzufügen und es neu aufzubauen.