tune2fs -l /dev/mmcblk0pN はファイルシステムエラーのチェックに信頼できますか?

Question

「Tune2fs -l」は、カーネルが実行中にファイルシステムの破損の問題を検出したかどうかを示します。たとえば、ext4 にファイルを削除するように指示し、ext4 がそのファイル内の一部のブロックがすでに割り当て解除済みとしてマークされていることを検出した場合、割り当てビットマップが破損していることを意味します。割り当てビットマップは、ext4 がそれを検出した時点ですでに破損していたことに注意してください。実際、数日または数週間破損していた可能性があり、新しいファイルを書き込んでいた場合、ext4 が古いファイルで使用されていたブロックを新しいファイルに割り当てた可能性があり、その結果、ユーザーがデータを失った可能性があります。

ファイルシステムが一貫しているか、またはある程度破損している可能性があるかを確実に判断する唯一の方法は、ファイルシステムに対して e2fsck を実行することです。これを行うには、ファイルシステムをアンマウントするか、読み取り専用スナップショットを作成する必要があります。(LVM を使用している場合は、読み取り専用スナップショットを作成し、読み取り専用スナップショットをチェックして、ファイルシステムが破損していることが判明した場合は、システムを再起動して e2fsck でファイルシステムを修復するか、システム管理者に電子メールを送信してファイルシステムを修復するためのダウンタイムをスケジュールすることができます。)

とはいえ、ファイルシステムが破損した場合、最も一般的なケースとしてはハードウェアの問題が原因と考えられます。カーネルのバグが原因である可能性もありますが、アップストリームだけでなく安定したカーネルでも定期的に回帰テストを実行しており、ファイルシステム破損の問題は長い間発生していません。デバイスドライバーにメモリ破損のバグがある可能性があり、(a) デバイスドライバーがアップストリームではなく、ハードウェアベンダーが適切な品質管理を行っていないか、(b) バグがアップストリームで修正され、最新の安定したカーネルにプッシュされているが、デバイスカーネルが安定したカーネルシリーズからの更新を取得していないかのいずれかです。

カーネルが明らかに間違ったことに遭遇したためにファイルシステムが破損していることが判明したかどうかを調べたい場合は、dmesg や /var/log/messages をスクレイピングするだけでは十分ではありません。/sys/fs/ext4//first_error_time ファイルを読み込んでみることもできます。このファイルに 0 以外の値が含まれている場合は、カーネルによってファイルシステムの破損が検出された時刻 (Unix エポックを使用) がわかります。このディレクトリの errors_count ファイルには、検出されたファイルシステムの破損の数が表示されます (ただし、システムが同じ問題に何度も遭遇しているだけである可能性もあります)。また、カーネルによって検出されたファイルシステムエラーをシステムがどのように処理しているかをテストしたい場合は、trigger_fs_error ファイルに文字列を書き込んでみてください --- たとえば、echo "test error" > /sys/fs/ext4/sda1/trigger_fs_error"

最後に、tune2fs で設定できるエラー動作ノブを確認してください。ファイルシステムの破損の問題が検出された後に、さらに損害が発生しないように確実にしたい場合は、問題が見つかったときにファイルシステムを読み取り専用で再マウントするように構成するか、再起動を強制して、ブートシーケンス中に e2fsck を実行し、(さらに多くの) ユーザーデータが破損または失われる前に問題を修正することができます。

Answer 1