LSI RAID コントローラーの背後にある zfs エラー

Question 1

zfs scrub「ZFS エラーをチェックするシステム」です。ボリュームに保存されているすべてのデータを読み取るのにかかる時間と同じ時間がかかります (トランザクションの順番に実行されるため、プールの空き状況やデータの書き込み方法によっては、シークが頻繁に発生する可能性があります)。開始すると、zfs status推定値が表示されます。scrub の実行は停止できます。

定期的にチェックするものが必要な場合zpool status、最も簡単な方法は、zpool status | grep -C 100 Status定期的に（6 時間に 1 回）何かを実行し、出力があればそれを電子メールで送信することです。おそらく、Nagios などのお気に入りの監視システム用のプラグインが見つかるでしょう。または、自分で作成するのもかなり簡単です。

ドライブをホットスワップするだけでは、再シルバー化は実行されません。再シルバー化を実行zfs replaceするには、実行する必要があります。

表示されている読み取りエラーは、何らかのコントローラの不具合である可能性もあります。エンタープライズハードウェアであるにもかかわらず、これらの (HW RAID) コントローラは時々異常な動作をします。また、これらのエラーは、たとえば、コマンドに時間がかかりすぎた (コントローラが何らかの処理でビジー状態) ことが原因で発生する可能性があります。そのため、必要な場合を除いて、このようなエラーは避けるようにしています。

ドライブの SMART データをチェックし ( を参照)、プールをスクラブすることをお勧めしますman smartctl。どちらも問題ない場合は、エラーをクリアしてプールを変更しないでください。プールがほぼ満杯の場合、再同期中にすべてのデータを読み取ると、別のエラーが発生する可能性があるためです。同じドライブで再びエラーが表示されたら、パニックになり始めてください ;)。

ちなみに、最高のパフォーマンスを得るには、RAIDZ2 vdev で n^2+2 ドライブを使用する必要があります。

Answer

zfs scrub「ZFS エラーをチェックするシステム」です。ボリュームに保存されているすべてのデータを読み取るのにかかる時間と同じ時間がかかります (トランザクションの順番に実行されるため、プールの空き状況やデータの書き込み方法によっては、シークが頻繁に発生する可能性があります)。開始すると、zfs status推定値が表示されます。scrub の実行は停止できます。

定期的にチェックするものが必要な場合zpool status、最も簡単な方法は、zpool status | grep -C 100 Status定期的に（6 時間に 1 回）何かを実行し、出力があればそれを電子メールで送信することです。おそらく、Nagios などのお気に入りの監視システム用のプラグインが見つかるでしょう。または、自分で作成するのもかなり簡単です。

ドライブをホットスワップするだけでは、再シルバー化は実行されません。再シルバー化を実行zfs replaceするには、実行する必要があります。

表示されている読み取りエラーは、何らかのコントローラの不具合である可能性もあります。エンタープライズハードウェアであるにもかかわらず、これらの (HW RAID) コントローラは時々異常な動作をします。また、これらのエラーは、たとえば、コマンドに時間がかかりすぎた (コントローラが何らかの処理でビジー状態) ことが原因で発生する可能性があります。そのため、必要な場合を除いて、このようなエラーは避けるようにしています。

ドライブの SMART データをチェックし ( を参照)、プールをスクラブすることをお勧めしますman smartctl。どちらも問題ない場合は、エラーをクリアしてプールを変更しないでください。プールがほぼ満杯の場合、再同期中にすべてのデータを読み取ると、別のエラーが発生する可能性があるためです。同じドライブで再びエラーが表示されたら、パニックになり始めてください ;)。

ちなみに、最高のパフォーマンスを得るには、RAIDZ2 vdev で n^2+2 ドライブを使用する必要があります。

Question 2

この場合は、ZFS の指示に従ってください。スクラブを実行してください。

私は毎週スケジュールに従ってシステムを洗浄しています。また、zfsウォッチャーLinux ZFS インストールの健全性を監視するデーモン。

ZFS アレイはおそらく調整されていないため、スクラブパフォーマンスの向上に役立つ値がいくつかありますが、この時点では、そのまま実行する必要があります。

そして、もう 1 つの質問ですが、ホットスワップはおそらく期待どおりには動作しないでしょう... 以下の不満を参照してください。

暴言:

ハードウェアコントローラーの背後に多数の RAID-0 仮想ドライブを配置するのは、お勧めできません。

両方の最悪の状況に陥ります。回復性とエラーチェックは制限されます。障害が発生したディスクは、基本的に障害が発生した仮想ドライブであり、ホットスワップに影響します。問題のディスクを削除するとします。新しい仮想ディスクを作成する必要があるか、またはドライブの列挙が異なる場合があります。

ある時点で、実際のHBAを入手してディスクをパススルーデバイス（RAIDメタデータなし）として実行するか、ハードウェアアレイによって保護された vdev 上で ZFS を実行するだけです。たとえば、コントローラ上で RAID-6 を実行し、その上に ZFS をインストールします。または、複数の RAID-X グループを実行し、結果として得られる vdev を ZFS でミラーリングまたはストライプ化します。

Answer