Ist LC_ALL=C destruktiv?

Question 1

Ist es wahrscheinlich, dass durch das Ausführen von LC_ALL=C sort -u auf diesen Dateien alle Nicht-ASCII-Zeichen entfernt werden?

In diesem Fall nicht. Nein – sortwir arbeiten direkt mit den Bytewerten, anstatt zu versuchen, sie in Zeichen umzuwandeln.

Das Gleiche gilt jedoch nicht unbedingt für andere Tools. Programme, die in C (der Sprache) geschrieben sind, verhalten sich am wahrscheinlichsten so. Programme, die in Sprachen mit starker Unterscheidung zwischen Byte und Zeichen geschrieben sind, wie etwa Python 3, sollten Eingaben, die nicht dem Zeichensatz entsprechen, grundsätzlich ablehnen. Und ich kann mir durchaus schlecht geschriebene Programme vorstellen, die die Fehler ignorieren und ?stattdessen ein � oder a ausgeben.

Wenn ja, was kann ich stattdessen tun, um alle „ungültigen oder unvollständigen Multibyte- oder Breitzeichen“ aus diesen Dateien zu korrigieren/entfernen, sodass ich sie sortieren kann, ohne LC_ALL=C zu verwenden?

Stellen Sie sicher, dass alle die gleiche Dateikodierung verwenden (vorzugsweise UTF-8) und dass Ihr Gebietsschema die gleiche Kodierung verwendet. Der Fehler sollte bei einer gültigen UTF-8-Datei nie auftreten, egal wie groß sie ist.

Answer

Ist es wahrscheinlich, dass durch das Ausführen von LC_ALL=C sort -u auf diesen Dateien alle Nicht-ASCII-Zeichen entfernt werden?

In diesem Fall nicht. Nein – sortwir arbeiten direkt mit den Bytewerten, anstatt zu versuchen, sie in Zeichen umzuwandeln.

Das Gleiche gilt jedoch nicht unbedingt für andere Tools. Programme, die in C (der Sprache) geschrieben sind, verhalten sich am wahrscheinlichsten so. Programme, die in Sprachen mit starker Unterscheidung zwischen Byte und Zeichen geschrieben sind, wie etwa Python 3, sollten Eingaben, die nicht dem Zeichensatz entsprechen, grundsätzlich ablehnen. Und ich kann mir durchaus schlecht geschriebene Programme vorstellen, die die Fehler ignorieren und ?stattdessen ein � oder a ausgeben.

Wenn ja, was kann ich stattdessen tun, um alle „ungültigen oder unvollständigen Multibyte- oder Breitzeichen“ aus diesen Dateien zu korrigieren/entfernen, sodass ich sie sortieren kann, ohne LC_ALL=C zu verwenden?

Stellen Sie sicher, dass alle die gleiche Dateikodierung verwenden (vorzugsweise UTF-8) und dass Ihr Gebietsschema die gleiche Kodierung verwendet. Der Fehler sollte bei einer gültigen UTF-8-Datei nie auftreten, egal wie groß sie ist.

Question 2

Da ich meine Dateien letztendlich durch viele verschiedene Bash-Tools wie sort, grep, awk, wcund leiten musste tr, entschied ich mich für die sicherere „richtige Lösung“, die in der akzeptierten Antwort angegeben war, nämlich sie alle zuerst in UTF-8 umzuwandeln. Das war letztendlich etwas schwieriger als erwartet, nicht zuletzt, weil ich eine Weile brauchte, um zu erkennen, dass filenicht zuverlässig bestimmt werden kann, ob eine Datei ASCII oder UTF-8 ist (weil nicht die gesamte Datei überprüft wird), also stelle ich diese Antwort hier für die Nachwelt ein.

Um definitiv zu bestimmen, in welcher Kodierung Ihre Dateien vorliegen, stellen Sie zunächst sicher, dass das uchardetPaket über den Cygwin-Installer installiert wurde oderapt-cyg, dann renne:

uchardet *.txt

Oder wenn Sie Cygwin nicht verwenden:

chardet *.txt

chardetVerschieben Sie alle aufgelisteten Dateien ASCIIin einen eigenen Ordner und führen Sie forin diesem Ordner die folgende Schleife aus:

for i in *.txt; do iconv -f ASCII -t UTF-8 "$i" >> "${i%.txt}_utf.txt"; done;

Es durchläuft alle .txtDateien in einem Ordner und erstellt davon UTF-8-Versionen mit utfhinzugefügtem Suffix.

Beim erneuten Ausführen uchardet *.txtwerden möglicherweise immer noch einige Dateien als angezeigt ASCII. Dies liegt daran, dass ASCII eine Teilmenge von UTF-8 ist undbedeutet einfachdass diese Dateien keine Zeichen außerhalb des 128-Bit-ASCII-Bereichs enthalten.

Jetzt sollten Sie in der Lage sein, auszuführen, sortohne verwenden zu müssen LC_ALL=C.

Answer

Da ich meine Dateien letztendlich durch viele verschiedene Bash-Tools wie sort, grep, awk, wcund leiten musste tr, entschied ich mich für die sicherere „richtige Lösung“, die in der akzeptierten Antwort angegeben war, nämlich sie alle zuerst in UTF-8 umzuwandeln. Das war letztendlich etwas schwieriger als erwartet, nicht zuletzt, weil ich eine Weile brauchte, um zu erkennen, dass filenicht zuverlässig bestimmt werden kann, ob eine Datei ASCII oder UTF-8 ist (weil nicht die gesamte Datei überprüft wird), also stelle ich diese Antwort hier für die Nachwelt ein.