RAID1 mdadm, ein Laufwerk automatisch ausfallen lassen und ein schreibgeschütztes Dateisystem vermeiden?

RAID1 mdadm, ein Laufwerk automatisch ausfallen lassen und ein schreibgeschütztes Dateisystem vermeiden?

Ich verwalte einen Server mit zwei Solid-State-Laufwerken, die in mdadm RAID1 konfiguriert sind. Auf dem Server läuft RHEL6 mit einem ext4-Dateisystem.

Heute Abend ging der Server kurz nach Beginn der nächtlichen Backups offline und die Konsole meldete Festplattenfehler:Bildbeschreibung hier eingeben

Als ich mich bei der Konsole anmeldete, stellte ich fest, dass eine der Festplatten von mdadm als fehlerhaft markiert und das Dateisystem auf schreibgeschützt eingestellt war.

Gibt es eine Möglichkeit, mdadm so zu konfigurieren, dass das Laufwerk ausfällt, bevor das Dateisystem erneut schreibgeschützt gemountet wird?Ich würde es für kurze Zeit lieber als Einzelplattensystem laufen lassen (bis eine Ersatzplatte installiert werden kann), als das Dateisystem sofort in den schreibgeschützten Modus zu versetzen – was einen Ausfall garantieren würde.

Antwort1

Das ist standardmäßig so, aber ich muss zugeben, ich hatte ähnliche Probleme damit. MD ist nicht gerade erpicht darauf, Festplattenfehler zu melden (oder Sektoren durch Neuschreiben zu reparieren, was Hardware-RAID-Controller tun). Deshalb habe ich meine Protokollüberwachung so eingerichtet, dass sie nach „ATA-Ausnahmen“ sucht und mir eine E-Mail sendet, wenn das passiert. Zumindest bei herkömmlichen Festplatten können Sie Festplattenfehler so viel schneller erkennen.

Wenn das Dateisystem als schreibgeschützt gekennzeichnet ist, ist der Fehler weiter oben in der Kette aufgetreten und auch auf dem MD-Gerät sind Fehler aufgetreten. Sind Sie sicher, dass auf SDB keine Fehler aufgetreten sind?

Oder sind Sie sicher, dass die Laufwerke überhaupt ausgefallen sind? Es kann passieren, dass der gesamte PCI-Bus ausgefallen ist, wie mir kürzlich passiert ist. Alle daran angeschlossenen Geräte begannen, Fehler zu melden (alle ATA und Ethernet), und tatsächlich wurden die Dateisysteme als schreibgeschützt und die MD-Arrays als ausgefallen markiert. Aber offensichtlich waren die Festplatten oder MD nicht das Problem.

So prüfen Sie, ob bei den Laufwerken ein Fehler auftrat: Ich habe nicht viel Erfahrung mit SMART auf SSD-Laufwerken, aber zumindest bei HDD-Laufwerken zeigt das SMART-Protokoll möglicherweise etwas an. Darin befindet sich ein Fehlerprotokoll, und Sie können sich die Smart-Parameter ansehen und sie möglicherweise mit der anderen Festplatte vergleichen.

Wenn smartmontools installiert ist, können Sie Folgendes tun:

smartctl -a /dev/sda

Das könnte Sie auch interessierenWie behebe ich Probleme mit meinem RAID-Array?.

Bearbeiten: Was die Sache mit dem PCI-Bus betrifft, sieht es so aus, als wäre Ihr Problem auf eine Festplatte oder einen Controller beschränkt.

verwandte Informationen