Derzeit nicht lesbare Sektoren auf RAID 5-Linux-Laufwerk

Derzeit nicht lesbare Sektoren auf RAID 5-Linux-Laufwerk

Ich bekomme alle 30 Minuten SmartD-Nachrichten zu /var/log/messages:

smartd[3588]: Gerät: /dev/sdc, 176 Derzeit nicht lesbare (ausstehende) Sektoren

Dieses Laufwerk (sdc) ist Teil von RAID 5, das mit mdadm konfiguriert wurde. Der Mdadm-Monitor sagt, dass RAID in Ordnung ist, aber ich möchte wissen, ob ich das Laufwerk wechseln muss oder nicht. Auch wenn es notwendig ist, diese Sektoren als fehlerhaft zu markieren, hat das Betriebssystem dies bereits getan.

Wenn ich das Laufwerk wechseln muss, wie wähle ich das Ersatzlaufwerk aus? Ich kann die Anzahl der Blöcke nicht in den Festplattenspezifikationen finden. Wenn ich also ein Laufwerk mit weniger Blöcken als das Original auswähle, habe ich ein Problem.

Antwort1

Ja, Laufwerk wechseln.

Nicht lesbare (ausstehende) Sektoren sind Sektoren, deren Inhalt nicht gelesen werden konnte. In einer normalen Nicht-RAID-Situation würde dies entweder zu einem Lesefehler oder einer langen Verzögerung führen, während das Laufwerk immer wieder versucht, den Sektor zu lesen, bis es erfolgreich ist (oder bis es schließlich aufgibt).

Bei RAID passieren zwei Dinge:

  1. Ihre Festplatte ist wahrscheinlich mit einem kurzen TLER-Wert konfiguriert. Sie gibt daher ihre Versuche, diesen Sektor zu lesen, innerhalb einer angemessenen Zeit auf. (So werden lange Hänger vermieden.)
  2. Ihr RAID-Array bemerkt den Fehler und liest die Daten von einer anderen Festplatte. Das ist der Vorteil von RAID 5: Sie haben eine Ersatzkopie.

Sie möchten Folgendes tun:

  1. Überprüfen Sie Ihre Backups. Sie sollten sie nicht brauchenwenn alles gut geht.
  2. Holen Sie sich eine Ersatzfestplatte gleicher oder größerer Größe. Sie können die Größe mit überprüfen smartctl -a /dev/sdc. Gehen Sie nicht davon aus, dass alle Laufwerke der Größe X die gleiche Kapazität haben. Hersteller mögen runde Zahlen; ein Laufwerk mit 500 GB kann durchaus kleiner sein als ein anderes Laufwerk mit 500 GB.
  3. Bringen Sie die Festplatte mit Problemen offline. ( mdadm --manage --remove /dev/mdX /dev/sdc)
  4. Ersetzen Sie die Festplatte durch neue Hardware und überlassen Sie dem Array den Neuaufbau. ( mdadm --add /dev/mdX /dev/sdc)

Wenn Sie große Festplatten verwendet haben, wird dies viel Zeit in Anspruch nehmen. Manchmal ist es schneller, das RAID-Array einfach von Grund auf neu aufzubauen und aus Backups wiederherzustellen. (TESTEN Sie diese Backups zuerst!)

Während das RAID neu aufgebaut wird, haben Sie keine Redundanz. Wenn also eine andere Festplatte ausfällt (z. B. aufgrund der Belastung durch den Neuaufbau), haben Sie ein Problem. Dies passiert manchmal bei großen Festplatten (lange Wiederherstellungszeiten) und mehreren Festplatten desselben Datums.

Antwort2

Die akzeptierte Antwort ist im Allgemeinen gut, aber seit mdadm 3.3 können Sie ein Laufwerk im Array ersetzen, ohne vorher das fehlerhafte zu entfernen. Wenn das fehlerhafte Laufwerk größtenteils lesbar ist, schützt Sie dies vor den meisten Doppelfehlern.

Angenommen, es handelt sich bei der SSD um ein neues Laufwerk, gehen Sie anstelle der Punkte 3 und 4 wie folgt vor:

  1. Fügen Sie dem Array ein neues Laufwerk hinzu und ersetzen Sie das fehlerhafte Laufwerk durch das neue: mdadm /dev/mdX -add /dev/sdd --replace /dev/sdc --with /dev/sdd

Es wird ein Neuaufbau mit allen möglichen verfügbaren Daten ausgelöst und das fehlerhafte/alte Laufwerk entfernt, sobald es fertig ist.

Außerdem empfiehlt es sich beim Erstellen eines neuen Arrays, auf jedem physischen Gerät eine große Partition zu erstellen und das RAID-Array auf den Partitionen und nicht auf dem Rohgerät zu erstellen.

verwandte Informationen