Wie ermitteln RAID-Controller, welche Festplatte fehlerhaft ist?

Wie ermitteln RAID-Controller, welche Festplatte fehlerhaft ist?

Mir ist also aufgefallen, dass ich mithilfe der XOR-Parität nicht feststellen kann, welche Festplatte in einem Streifensatz fehlerhaft ist.

Nehmen wir an, dass eine der Festplatten im Set stillschweigend Bits auf den Platten umdreht (auch bekannt als Bit-Rot), beispielsweise aufgrund einer fehlerhaften Firmware. Die Festplatte versagt nicht und meldet auch keine fehlerhaften Blöcke, aber sie übergibt der Festplatte gelegentlich etwas anderes als das, was sie eingegeben hat.

Die Verwendung von XOR gibt wie jede andere Prüfsumme keinen Aufschluss darüber, welche Festplatte im Streifen die Ursache für die fehlerhafte Paritätsberechnung war, aber Sie wissen, dass eine der Festplatten ein Problem hat.

Dieses Szenario muss angesichts der Einschränkungen von Raid 5 irgendwie gelöst werden, aber ehrlich gesagt ist mir das nicht klar. Ich kann mir vorstellen, dass Raid 6 mit horizontaler (Raid-4-artiger) und diagonaler Parität die fehlerhaften Blöcke triangulieren und zeigen kann, welche Festplatte den fehlerhaften Bereich enthielt … aber diese Frage bezieht sich auf Raid-5-Sets.

Vielen Dank im Voraus.

Antwort1

Ein RAID-Controller ermittelt, welche Festplatte fehlerhaft ist, indem er erkennt, welche E/A-Fehler verursacht oder nicht reagiert.

Eine moderne Festplatte (also eine, die in den letzten 20 Jahren hergestellt wurde) verwendet ECC auf Sektorebene, um Bit-Flip-Fehler zu erkennen und zu korrigieren. Die derzeit verwendeten ECC-Systeme können jeden Einzelbitfehler in einem Sektor korrigieren und alle Doppelbitfehler erkennen. Wenn wiederholte Lesevorgänge eines Sektors durchgängig Einzelbitfehler erzeugen, ordnet die Firmware des Laufwerks den Sektor stillschweigend einem unbenutzten Teil des Laufwerks zu (alle modernen Festplatten haben zu diesem Zweck etwas freien Speicherplatz). Wenn Doppelbitfehler erzeugt werden, meldet die Firmware einen E/A-Fehler an den Controller und ein RAID-Controller markiert das Laufwerk als fehlerhaft. Damit Daten unentdeckt beschädigt werden können, müssen mindestens drei Bits in einem einzelnen Sektor umgedreht werden – ein Ereignis, das verschwindend selten vorkommt.

Wenn Sie vermuten, dass fehlerhafte Firmware Bit-Flips verursacht, können Sie dies auf RAID-Ebene (für RAID 1, 10, 5 und 6) feststellen, indem Sie eine Konsistenzprüfung ausführen. Dies zeigt Ihnen jedoch nur, dass es Streifen gibt, bei denen die Parität/Spiegelung nicht übereinstimmt; es zeigt Ihnen jedoch nicht, welches Laufwerk fehlerhaft ist. Sie können das fehlerhafte Laufwerk finden, indem Sie ein Laufwerk aus dem Array ziehen und mit Ihrem bevorzugten Festplattenprüftool einen „Oberflächenscan“ nach fehlerhaften Blöcken ausführen: Wenn die Firmware fehlerhaft ist, sollte der Scan Hunderttausende fehlerhafter Sektoren finden.

verwandte Informationen