文字コードでファイルを検索する

Question 1

isutf8パッケージからの使用moreutils:

find . -name '*.py' -exec isutf8 {} +

または：

find . -name '*.py' | xargs isutf8

(後者はファイル名に改行がないことを前提としています。)

Answer

isutf8パッケージからの使用moreutils:

find . -name '*.py' -exec isutf8 {} +

または：

find . -name '*.py' | xargs isutf8

(後者はファイル名に改行がないことを前提としています。)

Question 2

同様に失敗するファイルを作成するには、次のスクリプトを使用できます。

{ printf '%*s' "179"; printf '\x81'; printf '%*s' "20"; } >infile

次に、このコマンドは、ファイルが失敗した位置を出力します。

$ isutf8 infile 
infile: line 1, char 1, byte offset 180: invalid UTF-8 code

.pyしたがって、これはpwd 内のすべての python () ファイルで位置 180 の無効なコードをテストします。

$ isutf8 ./*.py | grep "offset 180"

あるいは、さらに柔軟なオフセットの範囲（GNU 拡張正規表現）:

$ isutf8 ./*.py | grep -E "offset (17|18)"

または、ディレクトリ全体の中のファイルに対する特定のテスト:

$ find . -iname "*.py" -type f -exec bash -c 'isutf8 "$1" | grep -E "offset (17|18)"' Find {} \;

Answer

同様に失敗するファイルを作成するには、次のスクリプトを使用できます。

{ printf '%*s' "179"; printf '\x81'; printf '%*s' "20"; } >infile

次に、このコマンドは、ファイルが失敗した位置を出力します。

$ isutf8 infile 
infile: line 1, char 1, byte offset 180: invalid UTF-8 code

.pyしたがって、これはpwd 内のすべての python () ファイルで位置 180 の無効なコードをテストします。

$ isutf8 ./*.py | grep "offset 180"

あるいは、さらに柔軟なオフセットの範囲（GNU 拡張正規表現）:

$ isutf8 ./*.py | grep -E "offset (17|18)"

または、ディレクトリ全体の中のファイルに対する特定のテスト:

$ find . -iname "*.py" -type f -exec bash -c 'isutf8 "$1" | grep -E "offset (17|18)"' Find {} \;

関連情報