fsync() が最初に呼び出されると rename() に時間がかかるのはなぜですか?

Question

コミットの説明によると、rename()の遅延は以下が原因であると思われます。Btrfs: 新しい名前を記録した後、ログを同期するこれはカーネル v4.19 で追加されました。

新しいファイル名のログ記録 (ハードリンクの作成時または名前の変更時に発生) をログに永続化します。

このアプローチはよりシンプルであるだけでなく、ext4、xfs、f2fs (おそらく他のファイルシステムも) と同じ動作を実現します。

2番目の文は正しいとは思えません。

公平を期すために指摘しておくべきことは、dpkgパッケージが正しくインストールされたと記録する前に、ファイルを含むディレクトリを fsync() するのを忘れていることです。しかし、この btrfs の動作は、Linux の他の部分と完全に一致するわけではありません。

XFS は rename() 内で新しいディレクトリエントリを同期しないと思います (つまり、意図的にそれが永続化されるのを待ちます)。XFS rename() 内での同期書き込みに対する私の推測は、このスレッドに一部基づいています。https://marc.info/?l=linux-xfs&m=139863577410237&w=2

ext4については、fsync()戻る前に新しいディレクトリエントリを同期する可能性があります。ただし、ext4 の rename() はそうしないと思います。

私は最近の議論にリンクしましたAIO fsync() 操作、そしてメタデータ更新の効率的なバッチ処理を可能にする方法についても説明します。仮想的な AIO rename() についてはあまり議論されていません。これは、rename() は同期操作ではないというのが通常の前提だからです。

(btrfsは全体的にちょっと怪しい感じがします。つまり、このデータ整合性のバグ修正は過去数回のリリースで行われており、これは唯一の恐ろしい修正ではありませんでした。変更履歴これらのリリースの場合)。

rename()の遅延は、BTRFS_NEED_LOG_SYNC最後の行から返されるものによってトリガーされる必要があると思います。btrfs_log_new_name()。

私がこれを見つけた方法は、オフCPU時間スタックトレースごとに待機時間を集計します。スタックトレースは次のようになります。

io_schedule_timeout
wait_for_completion_io
write_all_supers
btrfs_sync_log
btrfs_sync_file
do_fsync
__x64_sys_fsync
do_syscall_64
entry_SYSCALL_64_after_hwframe
-                dpkg (23528)
    9735954

io_schedule_timeout
wait_for_completion_io
write_all_supers
btrfs_sync_log
btrfs_rename2
vfs_rename
do_renameat2
__x64_sys_rename
do_syscall_64
entry_SYSCALL_64_after_hwframe
-                dpkg (23528)
    9147785

io_schedule
bit_wait_io
__wait_on_bit
out_of_line_wait_on_bit
write_all_supers
btrfs_sync_log
btrfs_sync_file
do_fsync
__x64_sys_fsync
do_syscall_64
entry_SYSCALL_64_after_hwframe
-                dpkg (23528)
    4478158

io_schedule
bit_wait_io
__wait_on_bit
out_of_line_wait_on_bit
write_all_supers
btrfs_sync_log
btrfs_rename2
vfs_rename
do_renameat2
__x64_sys_rename
do_syscall_64
entry_SYSCALL_64_after_hwframe
-                dpkg (23528)
    4376109

Answer 1