Wie vermeidet man Datenverlust aufgrund fehlerhafter Sektoren auf der Festplatte?

Wie vermeidet man Datenverlust aufgrund fehlerhafter Sektoren auf der Festplatte?

Wie der Titel schon sagt, mache ich mir Gedanken darüber, wie wirDatenverlust vermeidenaufgrund fehlerhafter Sektoren auf der Festplatte (entweder mechanische HDD oder SSD).

\Mehr Informationen\

Die Frage ist klar definiert. Die Frage endet hier. Lassen Sie mich versuchen, weitere Informationen bereitzustellen. Speichergerätefehler (Hardwarefehler, abgesehen von Viren) lassen sich hauptsächlich in zwei Typen unterteilen.

  1. Fehler der gesamten Festplatte. Wenn irgendetwas mechanisch und/oder elektronisch auf der Festplatte schief läuft, ist die Festplatte nicht mehr zugänglich.

  2. Fehlerhafter Sektor. Nur ein bestimmter Teil ist fehlerhaft. Die gesamte Festplatte scheint einwandfrei zu funktionieren. Wenn auf diesen bestimmten fehlerhaften Sektor nicht zugegriffen/dieser nicht überprüft wird, werden wir nie erfahren, dass es einen fehlerhaften Sektor gibt.

\RAID kann Datenverlust aufgrund fehlerhafter Sektoren nicht vermeiden\

RAID1, RAID5 oder RAID6 können Datenverluste aufgrund von Fall 1 vermeiden. Soweit ich weiß, scannt und überprüft Standard-RAID jedoch nicht regelmäßig alle Daten, was bedeutet, dass RAID Datenverluste aufgrund von Fall 2 nicht vermeiden kann. Zum Beispiel im Fall einer RAID1-Spiegelung. Wenn auf der ersten Festplatte ein fehlerhafter Sektor auftritt, ist eine Datei auf der ersten Festplatte beschädigt. Zu diesem Zeitpunkt haben wir immer noch die gespiegelte Datei auf der zweiten Festplatte.Wir wissen jedoch nicht, ob es einen fehlerhaften Sektor gibt.Daher zeigt das RAID1-Array keinen Festplattenfehler an und löst keine Wiederherstellung aus. Dann vergeht die Zeit und es erscheinen immer mehr fehlerhafte Sektoren. (Jede Hardware ist abgenutzt, es ist nur eine Frage der Zeit.) Es besteht definitiv die Möglichkeit, dass das exakt gespiegelte Bit/der gespiegelte Teil auf der zweiten Festplatte ebenfalls unter einem fehlerhaften Sektor leidet. Zu diesem Zeitpunkt gibt es keine redundanten Kopien mehr.Die betroffenen Daten sind unwiederbringlich verloren.Auch dies bemerken wir nicht sofort. Wir bemerken den Verlust erst, wenn wir auf die Daten zugreifen.

\Ist ZFS(ein Dateisystem mit Prüfsumme)eine Lösung?\

Da ich Datenverluste aufgrund fehlerhafter Sektoren vermeiden möchte, habe ich angefangen, mich mit der Dateiprüfsummen-Sache zu befassen. Es scheint, dass nicht viele gängige Dateisysteme Prüfsummen für jede Datei enthalten. Ich habe einige Kenntnisse mit Gentoo Linux. Daher plane ich, ZFS unter Gentoo Linux zu verwenden.

Die Ideen von ZFS, dass „die Speicherverwaltung einfach sein sollte“ und „Redundanz vom Dateisystem gehandhabt werden sollte“, sind gut. Es scheint mir, dass, wenn ein fehlerhafter Sektor auf einer ZFS-Festplatte auftritt, dieser stillschweigend wiederhergestellt wird (nicht wahr? Ich kann das noch nicht bestätigen). Wenn immer mehr fehlerhafte Sektoren auf einer ZFS-Festplatte auftreten, bedeutet das dann, dass die Größe dieser ZFS-Festplatte schrumpft? Wenn nicht, wie kann ich feststellen, wenn ein fehlerhafter Sektor auftritt? Wie erkenne ich, wann die Anzahl der fehlerhaften Sektoren auf der Festplatte zu hoch ist und ich sie durch eine andere fehlerfreie Festplatte ersetzen muss? Ich glaube, ich brauche einige ZFS-Monitore und ZFS-Dienstprogramme, zu denen ich im Internet nicht viele Informationen finden kann.

Antwort1

Wenn man davon ausgeht, dass Datenspeicher irgendwann immer ausfallen werden, muss man einfachmehr als eine Kopie aufbewahrenvon Daten und überprüfen Sie gelegentlich, ob Sie die Daten erfolgreich lesen können.

Die Verwendung einer Art RAID klingt nach einer guten Möglichkeit, um zumindest eine Sicherungskopie zu haben, aber zusätzliche Kopien sind eine großartige Idee, zumindest aus dem offensichtlichen Grund, nicht alle Kopien im selben Gebäude, Raum und auf derselben Maschine aufzubewahren. Online-Backups sind eine gute Möglichkeit, jemand anderen die Sorge um den Ausfall seiner Laufwerke zu überlassen.

Um sicherzustellen, dass die Daten noch lesbar sind, behalten Sie einfach Ihre eigenen Prüfsummen bei und überprüfen Sie diese regelmäßig. Ein einfacher CRC würde funktionieren, wie zum Beispiel cksumvon den Kerndienstprogrammen von GNU oder sogar md5sum oder shaXsum (obwohl sie meiner Meinung nach nur für fehlerhafte Sektoren übertrieben sind).

[Und bewahren Sie aus offensichtlichen Gründen einige Kopien der Prüfsummendateien auf.]

Auch wenn ZFS seine eigenen Prüfsummen hat, sollten Sie trotzdem Ihre eigene Kopie behalten, um Kopien zu überprüfen, die auf anderen Dateisystemen oder online gespeichert sind. Und ich gehe davon aus, dass Sie oder ZFS alle Dateien lesen müssen, um sie zu überprüfen (ich glaube, das heißtZFS-Datenbereinigung, explizit aufgerufen mit zpool scrub).


Es ist auch interessant zu bedenken, dass viele Laufwerke (insbesondere Flash-Laufwerke) ihre eigene Bad-Block-Verwaltung (und Abnutzungsnivellierung) durchführen, indem sie schlechte und grenzwertige Blöcke durch neue Ersatzblöcke ersetzen, und das alles (meistens) unbemerkt, ohne dass Sie oder das Betriebssystem es überhaupt bemerken. Ich habe einmal über Flash-Speicherkarten gelesen, dass von 16 GB Speicher nur genug guter Speicher vorhanden war, um eine 512 MB- oder 1 G-Karte herzustellen.

Antwort2

Bezüglich RAID 5/6

RAID 5/6 verfügt über Paritätsdaten.

Wenn eine ganze Festplatte wiederhergestellt werden kann, sind mit Sicherheit genügend Paritätsdaten vorhanden, um einen einzelnen Sektor wiederherzustellen.

Im schlimmsten Fall entdecken Sie einen fehlerhaften Sektor, ersetzen das gesamte Laufwerk und alles wird neu aufgebaut.

Wenn also ein RAID 5/6 einen fehlerhaften Sektor erkennt,sollenVerwenden Sie zur Reparatur automatisch die Paritätsdaten.

Mein Adaptec RAID-Controller verfügt sogar über eine spezielle „Überprüfen/Reparieren“-Option in der GUI.

Beachten Sie auchPrüfsummen,sha1,sha2, CRC usw. bieten nur die Möglichkeit, zu erkennen, wann ein Fehler aufgetreten ist. Sie bieten keine Möglichkeit, diese zu beheben.

verwandte Informationen