ZFS-Fehler hinter LSI-RAID-Controller

Question 1

zfs scrubist das „System, das nach ZFS-Fehlern sucht“. Es dauert so lange, wie es braucht, um alle im Volume gespeicherten Daten zu lesen (in sequenzieller TXG-Reihenfolge, daher kann es je nach Füllstand des Pools und der Art und Weise, wie die Daten geschrieben wurden, viel Zeit in Anspruch nehmen). Nach dem Start zfs statuswird eine Schätzung angezeigt. Der laufende Scrub kann gestoppt werden.

Wenn Sie etwas regelmäßig überprüfen möchten zpool status, wäre es am einfachsten, etwas wie „ zpool status | grep -C 100 Statusperiodisch“ (alle 6 Stunden) auszuführen und die Ausgabe, falls vorhanden, per E-Mail zu versenden. Sie können wahrscheinlich ein Plugin für Ihr bevorzugtes Überwachungssystem wie Nagios finden. Oder es wäre ziemlich unkompliziert, es selbst zu schreiben.

zfs replaceDas bloße Hot-Swapping des Laufwerks löst kein Resilver aus. Dazu müssen Sie es ausführen .

Der angezeigte Lesefehler kann auch eine Art Controller-Fehler sein. Obwohl es sich um Enterprise-Hardware handelt, verhalten sich diese (HW RAID) Controller manchmal seltsam. Und diese Fehler können beispielsweise darauf zurückzuführen sein, dass ein Befehl zu lange dauert – der Controller ist mit irgendetwas beschäftigt. Deshalb versuche ich, diese Fehler zu vermeiden, sofern es nicht unbedingt nötig ist.

Ich würde die SMART-Daten auf dem Laufwerk überprüfen (siehe man smartctl) und den Pool bereinigen. Wenn beide in Ordnung sind, löschen Sie die Fehler und ändern Sie Ihren Pool nicht. Denn wenn der Pool fast voll ist, kann das Lesen aller Daten während des Resilver-Vorgangs tatsächlich einen weiteren Fehler auslösen. Geraten Sie in Panik, wenn Sie auf demselben Laufwerk erneut Fehler sehen ;).

Übrigens: Für eine optimale Leistung sollten Sie n^2+2 Laufwerke in RAIDZ2-vdevs verwenden.

Answer

zfs scrubist das „System, das nach ZFS-Fehlern sucht“. Es dauert so lange, wie es braucht, um alle im Volume gespeicherten Daten zu lesen (in sequenzieller TXG-Reihenfolge, daher kann es je nach Füllstand des Pools und der Art und Weise, wie die Daten geschrieben wurden, viel Zeit in Anspruch nehmen). Nach dem Start zfs statuswird eine Schätzung angezeigt. Der laufende Scrub kann gestoppt werden.

Wenn Sie etwas regelmäßig überprüfen möchten zpool status, wäre es am einfachsten, etwas wie „ zpool status | grep -C 100 Statusperiodisch“ (alle 6 Stunden) auszuführen und die Ausgabe, falls vorhanden, per E-Mail zu versenden. Sie können wahrscheinlich ein Plugin für Ihr bevorzugtes Überwachungssystem wie Nagios finden. Oder es wäre ziemlich unkompliziert, es selbst zu schreiben.

zfs replaceDas bloße Hot-Swapping des Laufwerks löst kein Resilver aus. Dazu müssen Sie es ausführen .

Der angezeigte Lesefehler kann auch eine Art Controller-Fehler sein. Obwohl es sich um Enterprise-Hardware handelt, verhalten sich diese (HW RAID) Controller manchmal seltsam. Und diese Fehler können beispielsweise darauf zurückzuführen sein, dass ein Befehl zu lange dauert – der Controller ist mit irgendetwas beschäftigt. Deshalb versuche ich, diese Fehler zu vermeiden, sofern es nicht unbedingt nötig ist.

Ich würde die SMART-Daten auf dem Laufwerk überprüfen (siehe man smartctl) und den Pool bereinigen. Wenn beide in Ordnung sind, löschen Sie die Fehler und ändern Sie Ihren Pool nicht. Denn wenn der Pool fast voll ist, kann das Lesen aller Daten während des Resilver-Vorgangs tatsächlich einen weiteren Fehler auslösen. Geraten Sie in Panik, wenn Sie auf demselben Laufwerk erneut Fehler sehen ;).

Übrigens: Für eine optimale Leistung sollten Sie n^2+2 Laufwerke in RAIDZ2-vdevs verwenden.

Question 2

Ich würde in diesem Fall das tun, was ZFS Ihnen sagt.Bitte führen Sie ein Scrub durch.

Ich reinige meine Systeme wöchentlich nach einem Zeitplan. Ich benutze auch diezfswatcherDaemon zur Überwachung der Integrität von Linux ZFS-Installationen.

Ihr ZFS-Array ist wahrscheinlich nicht optimiert, daher gibt es einige Werte, die die Scrubbing-Leistung verbessern können. An diesem Punkt sollten Sie es jedoch einfach ausführen.

Und zur anderen Frage: Ihr Hot-Swap wird wahrscheinlich nicht das tun, was Sie erwarten ... Siehe Tirade unten.

schimpfen:

Eine Reihe virtueller RAID-0-Laufwerke hinter einem Hardware-Controller zu haben, ist keine gute Idee!

Sie haben das Schlechteste aus beiden Welten. Wiederherstellbarkeit und Fehlerprüfung sind begrenzt. Eine ausgefallene Festplatte ist im Wesentlichen ein ausgefallenes virtuelles Laufwerk und hat Auswirkungen auf den Hot-Swap-Betrieb. Nehmen wir an, Sie entfernen die betreffenden Festplatten. Sie müssen wahrscheinlich eine neue virtuelle Festplatte erstellen oder erhalten möglicherweise eine andere Laufwerksaufzählung.

Ab einem bestimmten Punkt ist es besser, einen echten HBA zu kaufen und die Festplatten als Passthrough-Geräte (ohne RAID-Metadaten) zu betreiben oderFühren Sie ZFS einfach auf durch Hardware-Arrays geschützten vdevs aus.Führen Sie beispielsweise ein RAID-6 auf Ihrem Controller aus und installieren Sie ZFS darüber. Oder führen Sie mehrere RAID-X-Gruppen aus und lassen Sie ZFS die resultierenden vdevs spiegeln oder streifen.

Answer