DL380 G5, RAID5, ext3, RAID fehlgeschlagen

DL380 G5, RAID5, ext3, RAID fehlgeschlagen

Wir haben einen alten HP DL380G5-Server mit 5 300 GB SCSI 3,5-Zoll-Festplatten in einem RAID5-Array in einem externen Schacht, formatiert als logisches Volume mit Ext3-Dateisystem, das 1,2 TB vertrauliche klinische Patientendaten hostet.

Zwei Festplatten zeigten in hpacucli einen vorhersehbaren Fehler an, also habe ich zuerst eine davon ausgetauscht und gesehen, dass sie in Ordnung war, aber ich habe nicht gesehen, dass dort auch „Bereit zum Neuaufbau“ steht. Ich habe auch die zweite völlig unachtsam ausgetauscht und jetzt heißt es, dass das RAID FEHLGESCHLAGEN ist.

Ich habe die alte Festplatte wieder eingesetzt und versucht, den Server neu zu starten. Beim Booten werde ich jedoch in den Wiederherstellungsmodus versetzt und es wird angezeigt, dass das logische Volume nicht gefunden werden kann.

Kann ich irgendetwas tun, um das wiederherzustellen? Leider haben wir kein Backup. Für jede Hilfe wären wir wirklich dankbar!

Ich habe darüber nachgedacht, BEIDE alten Laufwerke zurückzugeben. Besteht die Möglichkeit, dass das RAID dadurch wiederhergestellt wird?

Antwort1

Es tut mir leid. Aber das ist ein Bedienfehler.

Bei Ihnen waren zwei Festplatten in einem RAID5-Array defekt und Sie haben mehr Festplatten entfernt, als das Array verkraften konnte.

Dies ohne Backups zu tun, ist der größere Fehler.

Sie sollten sich an ein Datenrettungsunternehmen wenden, um zu versuchen, die Daten vom defekten logischen Laufwerk wiederherzustellen.

Antwort2

Schalten Sie das System nicht wieder ein. Fahren Sie es herunter und rufen Sie einen Datenrettungsdienst an. Es gibt eine Reihe von Diensten, die eine Fernwiederherstellung dieser Art von Fehler ermöglichen. An diesem Punkt können Sie es nur noch schlimmer machen.

Dabei werden häufig alle Laufwerke direkt an einen zweifelsfrei funktionierenden HBA angeschlossen (keine RAID-Karte oder ein anderer Controller!) und ein spezielles herunterladbares Linux-Image mit Remote-Management-Tools gestartet. Das Unternehmen greift dann per Fernzugriff auf das System zu, bewertet den Festplattenstatus und stellt alle verbleibenden RAID-Metadaten wieder her. Mithilfe proprietärer Software können sie eine virtuelle RAID-Festplatte neu zusammenstellen (technisches Detail: häufig etwas, das in das standardmäßige Linux-Device-Mapper-System eingesteckt wird). Dadurch wird das RAID dann in der Software schreibgeschützt (ohne RAID-SoC-Beschleuniger). Die nächsten Schritte sind die Überprüfung, ob die Daten nicht unbrauchbar beschädigt sind, und das Klonen der virtuellen Festplatte auf eine neue Festplatte, um die Datenwiederherstellung abzuschließen. Danach können Sie sich darum kümmern, das System wieder zum Laufen zu bringen.

Ich werde hier zwar keine einzelnen Dienste nennen, die meisten sind jedoch leicht zu finden. Bei denen mit Remote-Diensten (die Ihnen den Hin- und Rücktransport der RAID-Laufwerke + des Wiederherstellungslaufwerks und das Warten auf die Wiederherstellung + den Klon und die anschließende Rücksendung durch den Dienstleister ersparen) haben Sie den Vorteil, dass die Daten Ihre Einrichtung nie verlassen.


Eine kleine gute Nachricht: Solange der RAID-Controller (oder Sie) keine neuen Daten auf eine der Festplatten geschrieben hat und die Warnung vor dem Ausfall keine Fehlerwarnung ist, liegt die Wahrscheinlichkeit, dass ein gutes Datenrettungsteam alle Daten wiederherstellen kann, praktisch bei 99,9999 % und das auch noch einigermaßen schnell.

Antwort3

Betreff: Wiederherstellen der alten Laufwerke.

Da Ihr RAID in seiner jetzigen Form völlig tot ist, haben Sie nicht viel zu verlieren, wenn Sie die beiden Laufwerke vor dem Ausfall erneut einbauen.

Installieren Sie sie in den Originalschächten.

Bedenken Sie, dass es sich um Vorabfehler handelt und nicht um Fehler von vornherein. Es besteht also eine gute Chance, dass sie lange genug ausgeführt werden, um Ihre Daten zu retten.

Es besteht die Möglichkeit, dass das Raid einfach nicht gestartet wird, und eine kleine Chance, dass der Controller Sie auffordert, das Raid „zurückzusetzen“ (wählen Sie NEIN/ABBRECHEN). Und es besteht eine winzige Chance, dass der Raid-Controller das Raid automatisch zurücksetzt, wodurch jeglicher Mehrwert durch eine Datenrettungsfirma zunichte gemacht würde.

Ihre oberste Priorität, wenn das RAID ausfällt, ist also, die Daten zu sichern. Das bedeutet, dass Sie mindestens 1,2 TB Speicherplatz zur Verfügung haben und bereit sind, Daten zu kopieren, und dass Sie ein Tool wie robocopyoder xcopy32in Ihrem Linux-Fall rsync einsatzbereit haben. Sie möchten keine Zeit damit verschwenden, Manpages zu lesen und die Syntax herauszufinden, wenn Ihre Laufwerke ihre letzten Minuten verschwenden.


Sobald Ihre Daten sicher sind, erstellen Sie das RAID mit den neuen Laufwerken als RAID6 neu. Sie verlieren 300 GB an Kapazität, erhalten aber eine Toleranz von zwei Laufwerken. Oder fügen Sie ein zusätzliches Laufwerk hinzu und ziehen Sie ein RAID10 über 6 Laufwerke in Betracht. Oder ziehen Sie in Erwägung, diese Maschine ganz auszumustern; das G5 ist über 10 Jahre alt und für wichtige Produktionsaufgaben wirklich nicht mehr geeignet.

Und versuchen Sie nicht, den Boot-Vorgang durchzuführen, sondern richten Sie auch eine geeignete Backup-Lösung ein. Es wird ein nächstes Mal geben.

verwandte Informationen