`cat -v` für nicht druckbare Nicht-ASCII-UTF-Zeichen

`cat -v` für nicht druckbare Nicht-ASCII-UTF-Zeichen

catverfügt über eine -vOption, die nicht druckbare Zeichen in ihre Caret-Notation umwandelt (was nützlich ist, wenn das Terminal die Steuerzeichen in catder Ausgabe nicht wörtlich interpretieren soll).

Aber so wie ich es verstehe, gilt die Caret-Notation nur für nicht druckbare Zeichen im ASCII-Alphabet. Was ist also mit den nicht druckbaren Zeichen in UTF, die nicht in ASCII fallen (z. B.https://www.compart.com/de/unicode/category/Cc)? Welche Notation wird cat -vzur Anzeige dieser verwendet?

Antwort1

Wir können eine Datei mit den ersten 256 Unicode-Zeichen in UTF-8 mit folgendem Befehl erzeugen:

python3 -c 'for x in range(0,255): print(chr(x), end="")' > unicode-file

Dazu gehören die Nicht-ASCII-Steuerelemente (C1) im Latin-1-Supplement und auch zahlreiche druckbare Zeichen.

Jetzt können wir cat -ves:

^@^A^B^C^D^E^F^G^H
^K^L^M^N^O^P^Q^R^S^T^U^V^W^X^Y^Z^[^\^]^^^_ !"#$%&'()*+,-./0123456789:;
<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~^?
M-BM-^@M-BM-^AM-BM-^BM-BM-^CM-BM-^DM-BM-^EM-BM-^FM-BM-^GM-BM-^HM-BM-^I
M-BM-^JM-BM-^KM-BM-^LM-BM-^MM-BM-^NM-BM-^OM-BM-^PM-BM-^QM-BM-^RM-BM-^S
M-BM-^TM-BM-^UM-BM-^VM-BM-^WM-BM-^XM-BM-^YM-BM-^ZM-BM-^[M-BM-^\M-BM-^]
M-BM-^^M-BM-^_M-BM- M-BM-!M-BM-"M-BM-#M-BM-$M-BM-%M-BM-&M-BM-'M-BM-(M-B
M-)M-BM-*M-BM-+M-BM-,M-BM--M-BM-.M-BM-/M-BM-0M-BM-1M-BM-2M-BM-3M-BM-4M-B
M-5M-BM-6M-BM-7M-BM-8M-BM-9M-BM-:M-BM-;M-BM-<M-BM-=M-BM->M-BM-?M-CM-^@
M-CM-^AM-CM-^BM-CM-^CM-CM-^DM-CM-^EM-CM-^FM-CM-^GM-CM-^HM-CM-^IM-CM-^J
M-CM-^KM-CM-^LM-CM-^MM-CM-^NM-CM-^OM-CM-^PM-CM-^QM-CM-^RM-CM-^SM-CM-^T
M-CM-^UM-CM-^VM-CM-^WM-CM-^XM-CM-^YM-CM-^ZM-CM-^[M-CM-^\M-CM-^]M-CM-^^
M-CM-^_M-CM- M-CM-!M-CM-"M-CM-#M-CM-$M-CM-%M-CM-&M-CM-'M-CM-(M-CM-)M-C
M-*M-CM-+M-CM-,M-CM--M-CM-.M-CM-/M-CM-0M-CM-1M-CM-2M-CM-3M-CM-4M-CM-5M-C
M-6M-CM-7M-CM-8M-CM-9M-CM-:M-CM-;M-CM-<M-CM-=M-CM->

(Ich habe das manuell umbrochen, damit es lesbar ist)

Sie können sehen, dass es U+0080 am Anfang der vierten Zeile darstellt, was UTF-8 ist C2 80, da M-BM-^@. M-Bdas C2-Byte darstellt: B ist 0x42, M-stellt also das Setzen des höchsten Bits dar (d. h. das Hinzufügen von 0x80). M-^@macht dasselbe für ein Null-Byte (Meta-Strg-@) – die M-xund ^x-Notation werden miteinander kombiniert.

Dasselbe passiert für alle Nicht-ASCII-Codepunkte, die in UTF-8 vollständig aus High-Bytes bestehen, oder in jeder anderen Kodierung alle Bytes 128-255. Verschiedene catImplementierungen können ihr eigenes Verhalten haben, wie-v ist nichteine Standardoption cat, aber sowohl GNU cat als auch die gängigen BSD-Versionen verhalten sich so.

verwandte Informationen