Encontre arquivos por codificação de caracteres

Question 1

Usando isutf8do moreutilspacote:

find . -name '*.py' -exec isutf8 {} +

Ou:

find . -name '*.py' | xargs isutf8

(Último, assumindo que os nomes dos arquivos não possuem novas linhas.)

Answer

Usando isutf8do moreutilspacote:

find . -name '*.py' -exec isutf8 {} +

Ou:

find . -name '*.py' | xargs isutf8

(Último, assumindo que os nomes dos arquivos não possuem novas linhas.)

Question 2

Para construir um arquivo com falha semelhante, podemos usar este script:

{ printf '%*s' "179"; printf '\x81'; printf '%*s' "20"; } >infile

Então este comando imprimirá em qual posição o arquivo falhou:

$ isutf8 infile 
infile: line 1, char 1, byte offset 180: invalid UTF-8 code

Portanto, isso testará todos .pyos arquivos python() no pwd em busca de um código inválido na posição 180:

$ isutf8 ./*.py | grep "offset 180"

Ou ainda mais flexível, uma série de compensações (gnu Extended Regex):

$ isutf8 ./*.py | grep -E "offset (17|18)"

Ou um teste específico para arquivos dentro de todo o diretório:

$ find . -iname "*.py" -type f -exec bash -c 'isutf8 "$1" | grep -E "offset (17|18)"' Find {} \;

Answer

Para construir um arquivo com falha semelhante, podemos usar este script:

{ printf '%*s' "179"; printf '\x81'; printf '%*s' "20"; } >infile

Então este comando imprimirá em qual posição o arquivo falhou:

$ isutf8 infile 
infile: line 1, char 1, byte offset 180: invalid UTF-8 code

Portanto, isso testará todos .pyos arquivos python() no pwd em busca de um código inválido na posição 180:

$ isutf8 ./*.py | grep "offset 180"

Ou ainda mais flexível, uma série de compensações (gnu Extended Regex):

$ isutf8 ./*.py | grep -E "offset (17|18)"

Ou um teste específico para arquivos dentro de todo o diretório:

$ find . -iname "*.py" -type f -exec bash -c 'isutf8 "$1" | grep -E "offset (17|18)"' Find {} \;

informação relacionada