NULL で終了するレコードでの comm の使用

Question

GNU comm(GNU coreutils 8.25 以降) には、そのための-z/--zero-terminatedオプションが追加されました。

GNU の古いバージョンではcomm、NUL と NL を入れ替えることができるはずです。

comm -13 <(cd dir1 && find . -type f -print0 | tr '\n\0' '\0\n' | sort) \
         <(cd dir2 && find . -type f -print0 | tr '\n\0' '\0\n' | sort) |
  tr '\n\0' '\0\n'

この方法はcomm改行で区切られたレコードでも機能しますが、入力内の実際の改行は NUL としてエンコードされるため、改行を含むファイル名でも安全です。

C少なくとも GNU システムとほとんどの UTF-8 ロケールでは、同じようにソートされる異なる文字列があり、ここで問題が発生する可能性があるため、ロケールをに設定することもできます¹。

これは非常によくあるトリックです（一致する行を反転する（NULで区切る）)ですcommが、入力で NUL をサポートするユーティリティが必要ですが、これは GNU システム以外では比較的まれです。

¹ 例:

$ touch dir1/{①,②} dir2/{②,③}
$ comm -12 <(cd dir1 && find . -type f -print0 | tr '\n\0' '\0\n' | sort) \
           <(cd dir2 && find . -type f -print0 | tr '\n\0' '\0\n' | sort)  
./③
./②
$ (export LC_ALL=C
    comm -12 <(cd dir1 && find . -type f -print0 | tr '\n\0' '\0\n' | sort) \
             <(cd dir2 && find . -type f -print0 | tr '\n\0' '\0\n' | sort))
./②

（2019 編集: GNU libcの新しいバージョンでは、①②③の相対的な順序は修正されていますが、

Answer 1