Kann jemand dieses kodierungsbezogene Verhalten erklären?

Question 1

In UTF-16 bestehen Zeichen aus zwei Bytes und für ASCII-Zeichen ist das höchste Byte 0x00.

Beispielsweise ist „Etwas“ in UTF-16:

00000000  ff fe 53 00 6f 00 6d 00  65 00 74 00 68 00 69 00  |..S.o.m.e.t.h.i.|
00000010  6e 00 67 00 0a 00                                 |n.g...|

( OxFFFEAm Anfang steht die Byte-Order-Markierung. Wenn Sie 0xFEFF sehen, wissen Sie, dass Sie Bytes vertauschen müssen …).

Die überall herumliegenden NUL-Zeichen verwirren die Software ...

Sie können in ein praktischeres UTF-8 konvertieren, indem Sie Folgendes verwenden iconv:

iconv -f UTF-16 -t UTF-8 <utf16file >utf8file

Und vergessen Sie nicht, die Kodierung im Dateikopf zu ändern

Answer

In UTF-16 bestehen Zeichen aus zwei Bytes und für ASCII-Zeichen ist das höchste Byte 0x00.

Beispielsweise ist „Etwas“ in UTF-16:

00000000  ff fe 53 00 6f 00 6d 00  65 00 74 00 68 00 69 00  |..S.o.m.e.t.h.i.|
00000010  6e 00 67 00 0a 00                                 |n.g...|

( OxFFFEAm Anfang steht die Byte-Order-Markierung. Wenn Sie 0xFEFF sehen, wissen Sie, dass Sie Bytes vertauschen müssen …).

Die überall herumliegenden NUL-Zeichen verwirren die Software ...

Sie können in ein praktischeres UTF-8 konvertieren, indem Sie Folgendes verwenden iconv:

iconv -f UTF-16 -t UTF-8 <utf16file >utf8file

Und vergessen Sie nicht, die Kodierung im Dateikopf zu ändern

Question 2

Wenn die Datei UTF-16 ist (Windows-typische Kodierung), werden Sie unter Linux Probleme haben (UTF-8 nativ, militant...). Zumindest behauptet GNU Emacs, dass es UTF-16 unterstützt, ich habe es nie aus Wut verwendet.

Sie können versuchen, mit recode(1) in UTF-8 zu übersetzen (und Header etc. entsprechend zu korrigieren), aber das könnte Tools, die UTF-16 erwarten, erheblich beschädigen.

Aktualisieren:Habe gerade darüber nachgedacht: Umkodieren auf UTF-8; nach Belieben mangle, spindeln, verunstalten; zurück auf UTF-16 kodieren. Auf diese Weise können Sie vertraute Werkzeuge in der Mitte verwenden. AberTunKorrektur der angekündigten UTF-16-Kodierung. Wer weiß, ob die Tools dadurch verwirrt werden. Oder vielleicht beachten XML-Mangling-Tools dies doch ...

Answer

Wenn die Datei UTF-16 ist (Windows-typische Kodierung), werden Sie unter Linux Probleme haben (UTF-8 nativ, militant...). Zumindest behauptet GNU Emacs, dass es UTF-16 unterstützt, ich habe es nie aus Wut verwendet.

Sie können versuchen, mit recode(1) in UTF-8 zu übersetzen (und Header etc. entsprechend zu korrigieren), aber das könnte Tools, die UTF-16 erwarten, erheblich beschädigen.

Aktualisieren:Habe gerade darüber nachgedacht: Umkodieren auf UTF-8; nach Belieben mangle, spindeln, verunstalten; zurück auf UTF-16 kodieren. Auf diese Weise können Sie vertraute Werkzeuge in der Mitte verwenden. AberTunKorrektur der angekündigten UTF-16-Kodierung. Wer weiß, ob die Tools dadurch verwirrt werden. Oder vielleicht beachten XML-Mangling-Tools dies doch ...

Kann jemand dieses kodierungsbezogene Verhalten erklären?

Antwort1

Antwort2

verwandte Informationen