Wie tödlich ist ein SMART-Fehler?

Wie tödlich ist ein SMART-Fehler?

Wir haben einen 40 TB-Speicherserver in RAID 5 mit zwölf 2 TB-Laufwerken. Ein Laufwerk fungiert als Hotspare und wird mit einem Hardware-RAID-Controller verwaltet.

Aus irgendeinem Grund sind anscheinend drei Laufwerke gleichzeitig ausgefallen. Eines scheint vollständig ausgefallen zu sein, während zwei SMART-Fehler aufweisen. Das Hotspare scheint nicht in einen Teil des Arrays umgewandelt worden zu sein, aber ich bin mir nicht sicher, ob das sowieso automatisch passiert wäre.

Die Frage ist, ob es möglich ist, diese beiden Laufwerke neu zu starten, das Array neu zu erstellen und dann die Daten zu speichern, bevor diese Laufwerke endgültig ausfallen. Meines Wissens nach handelt es sich beim SMART-Fehler nicht um einen direkten Ausfall, sondern lediglich um einen vorhergesagten Ausfall.

Offensichtlich müssen diese Laufwerke bald ersetzt werden, aber sind sie völlig kaputt oder können sie gerettet werden?

Antwort1

Das eine komplett ausgefallene Laufwerk sollte so schnell wie möglich ersetzt werden, damit sich das Array selbst wiederherstellen kann. Laut dieser Studie ist die Wahrscheinlichkeit, dass Laufwerke mit SMART-Fehlern ausfallen, höher als bei Laufwerken ohne SMART-Fehler:https://static.googleusercontent.com/media/research.google.com/en//archive/disk_failures.pdf. Sie sollten ebenfalls ersetzt und nie wieder in wichtigen Anwendungsfällen verwendet werden.

Vorausgesetzt, Sie verwenden identische Festplatten, lohnt es sich, mehrere Ersatzfestplatten anzuschaffen. Die Anzahl hängt davon ab, wie lange das Speichergerät voraussichtlich im Einsatz bleiben wird.

Meiner Meinung nach ist RAID5 keine gute Option für Arrays mit Laufwerken, die größer als 1 TB sind. RAID5 braucht lange zum Wiederherstellen und die Leistung ist beim Wiederherstellen gering. RAID5 ist auch nicht sehr hilfreich, wenn Sie viele (12) Festplatten in einem Array haben, da es nur vor einem Ausfall schützt. Ein zweiter Ausfall ruiniert das gesamte Array.

Für zukünftige Builds schlage ich stattdessen die Verwendung von RAID10 vor, da dies eine konstantere, schnellere Leistung bei gleichzeitig besserer Fehlertoleranz bietet.

Antwort2

Meines Wissens nach lässt RAID 5 einen Festplattenausfall im Array zu. Das Hotspare wird auf Anforderung entsprechend erstellt. Dazu wird der Controller/die GUI oder welches Frontend Sie auch immer verwenden. Die zum Wiederherstellen des RAID benötigte Zeit hängt von der verwendeten Datenmenge ab. Sobald das Hotspare erstellt ist, funktioniert Ihr RAID theoretisch wieder normal. Nehmen Sie in dieser Zeit eine der anderen Festplatten mit den SMART-Fehlern offline und bauen Sie sie mit dem Hotspare-Prozess neu auf. Fahren Sie fort, bis alle Ihre fehlerhaften Festplatten ersetzt sind. Ich würde jede Festplatte mit kritischen Daten und SMART-Fehlern ersetzen. Sie könnten in Zukunft RAID 6 verwenden, natürlich müssten Sie alle Ihre Daten sichern, indem Sie sie verschieben, das Array neu aufbauen und es wieder einsetzen. RAID 6 lässt mehr Festplattenausfälle zu, aber die Schreibgeschwindigkeit nimmt leicht ab.

verwandte Informationen