Suchen Sie nach Dateien anhand der Zeichenkodierung

Question 1

Verwendung isutf8aus dem moreutilsPaket:

find . -name '*.py' -exec isutf8 {} +

Oder:

find . -name '*.py' | xargs isutf8

(Letzteres unter der Annahme, dass die Dateinamen keine Zeilenumbrüche haben.)

Answer

Verwendung isutf8aus dem moreutilsPaket:

find . -name '*.py' -exec isutf8 {} +

Oder:

find . -name '*.py' | xargs isutf8

(Letzteres unter der Annahme, dass die Dateinamen keine Zeilenumbrüche haben.)

Question 2

Um eine ähnlich fehlgeschlagene Datei zu erstellen, können wir dieses Skript verwenden:

{ printf '%*s' "179"; printf '\x81'; printf '%*s' "20"; } >infile

Anschließend gibt dieser Befehl aus, an welcher Stelle die Datei fehlschlägt:

$ isutf8 infile 
infile: line 1, char 1, byte offset 180: invalid UTF-8 code

Dies prüft alle python( .py)-Dateien im pwd auf einen ungültigen Code an Position 180:

$ isutf8 ./*.py | grep "offset 180"

Oder noch flexibler, ein Bereich von Offsets (erweiterter regulärer Ausdruck von GNU):

$ isutf8 ./*.py | grep -E "offset (17|18)"

Oder ein spezifischer Test für Dateien im gesamten Verzeichnis:

$ find . -iname "*.py" -type f -exec bash -c 'isutf8 "$1" | grep -E "offset (17|18)"' Find {} \;

Answer

Um eine ähnlich fehlgeschlagene Datei zu erstellen, können wir dieses Skript verwenden:

{ printf '%*s' "179"; printf '\x81'; printf '%*s' "20"; } >infile

Anschließend gibt dieser Befehl aus, an welcher Stelle die Datei fehlschlägt:

$ isutf8 infile 
infile: line 1, char 1, byte offset 180: invalid UTF-8 code

Dies prüft alle python( .py)-Dateien im pwd auf einen ungültigen Code an Position 180:

$ isutf8 ./*.py | grep "offset 180"

Oder noch flexibler, ein Bereich von Offsets (erweiterter regulärer Ausdruck von GNU):

$ isutf8 ./*.py | grep -E "offset (17|18)"

Oder ein spezifischer Test für Dateien im gesamten Verzeichnis:

$ find . -iname "*.py" -type f -exec bash -c 'isutf8 "$1" | grep -E "offset (17|18)"' Find {} \;

verwandte Informationen