Buscar archivos por codificación de caracteres

Question 1

Usando isutf8del moreutilspaquete:

find . -name '*.py' -exec isutf8 {} +

O:

find . -name '*.py' | xargs isutf8

(Esto último, bajo el supuesto de que los nombres de los archivos no tienen nuevas líneas).

Answer

Usando isutf8del moreutilspaquete:

find . -name '*.py' -exec isutf8 {} +

O:

find . -name '*.py' | xargs isutf8

(Esto último, bajo el supuesto de que los nombres de los archivos no tienen nuevas líneas).

Question 2

Para crear un archivo con un error similar, podemos usar este script:

{ printf '%*s' "179"; printf '\x81'; printf '%*s' "20"; } >infile

Luego, este comando imprimirá en qué posición falla el archivo:

$ isutf8 infile 
infile: line 1, char 1, byte offset 180: invalid UTF-8 code

Entonces, esto probará todos .pylos archivos Python () en pwd para detectar un código no válido en la posición 180:

$ isutf8 ./*.py | grep "offset 180"

O incluso más flexible, una variedad de compensaciones (expresión regular extendida gnu):

$ isutf8 ./*.py | grep -E "offset (17|18)"

O una prueba específica para archivos dentro de todo el directorio:

$ find . -iname "*.py" -type f -exec bash -c 'isutf8 "$1" | grep -E "offset (17|18)"' Find {} \;

Answer

Para crear un archivo con un error similar, podemos usar este script:

{ printf '%*s' "179"; printf '\x81'; printf '%*s' "20"; } >infile

Luego, este comando imprimirá en qué posición falla el archivo:

$ isutf8 infile 
infile: line 1, char 1, byte offset 180: invalid UTF-8 code

Entonces, esto probará todos .pylos archivos Python () en pwd para detectar un código no válido en la posición 180:

$ isutf8 ./*.py | grep "offset 180"

O incluso más flexible, una variedad de compensaciones (expresión regular extendida gnu):

$ isutf8 ./*.py | grep -E "offset (17|18)"

O una prueba específica para archivos dentro de todo el directorio:

$ find . -iname "*.py" -type f -exec bash -c 'isutf8 "$1" | grep -E "offset (17|18)"' Find {} \;

información relacionada