Wie konvertiere ich diese Zeichenfolge mit GNU/Linux-Tools ins Japanische?

Question

Pipes sind eine Funktion des Betriebssystems, die mit Byte-Puffern arbeitet und deren Inhalt in keiner Weise interpretiert. Piped-Text gelangt also nicht zu Bash undbesondersniemals über „readline“. Text, der als Befehlszeilenargumente eingefügt wird, tut dies. (Und ja, sowohl readline als auch das Terminal können als Sicherheitsmaßnahme Steuerzeichen herausfiltern.)

Ihre Datei ist eigentlich eine Mischung aus zwei Kodierungen, windows-1252und iso8859-1zwar aufgrund der unterschiedlichen Verwendung des C1-Steuerzeichenblocks (0x80..0x9F).

ISO 8859-1 verwendet diesen gesamten Bereich für Steuerzeichen, und die Bytes 0x80..0x9F entsprechen den Unicode-Codepunkten U+0080..U+009F.
Windows-1252kann nichtstellen C1-Steuerzeichen dar; es nutzt den größten Teil dieses Bereichs für druckbare Zeichen und hat einige „Lücken“ – d. h. Bytewerte, denen nichts zugewiesen ist (0x81, 0x8D, 0x8F, 0x90, 0x9D).
Ansonsten sind die beiden Kodierungen in den Bereichen 0x00..0x7F und 0xA0..0xFF identisch.

Betrachten wir die erste Zeile Ihrer „fehlerhaften“ Eingabedatei, die von UTF-16 in Unicode-Text dekodiert und mit Escapezeichen für nicht druckbare Zeichen versehen wurde:

\u0081@\u0081™TdaŽ®\u008FÆ‚êƒ~ƒNƒXƒgƒŒ\u0081[ƒg\u0081EƒrƒLƒjver1.11d1.d2\u0081iƒrƒLƒjƒ‚ƒfƒ‹ver.1.1\u0090³Ž®”z•z”Å\u0081j\n

Sie können (U+0081) sehen \u0081, das dem Byte 0x81 in ISO 8859-1 entspricht, aber nicht in Windows-1252 codiert werden kann.
Sie können auch das Symbol ƒ(U+0192) sehen, das in Windows-1252 0x83 entspricht, in ISO 8859-1 jedoch überhaupt nicht existiert.

Der Trick besteht also darin, wenn möglich Windows-1252 und ISO 8859-1 als Fallback zu verwenden und für jeden Codepunkt einzeln zu entscheiden. (libiconv könnte dies über „ICONV_SET_FALLBACKS“ tun, das CLI- iconvTool jedoch nicht.) Sie können ganz einfach Ihr eigenes Tool schreiben:

#!/usr/bin/env python3
with open("/dev/stdin", "rb") as infd:
    with open("/dev/stdout", "wb") as outfd:
        for rune in infd.read().decode("utf-16"):
            try:
                chr = rune.encode("windows-1252")
            except UnicodeEncodeError:
                chr = rune.encode("iso8859-1")
            outfd.write(chr)
            # outputs shift-jis

Beachten Sie, dass nurHälfteIhrerEingabedateiist falsch kodiert, Shift-JIS. Die andere Hälfte (Englisch) ist vollkommen in Ordnung, UTF-16; glücklicherweise wird es von Shift-JIS durchgelassen, sodass keine manuelle Aufteilung erforderlich ist:

#!/usr/bin/env python3
with open("éΦé╟é▌üEé╓é╚é┐éσé▒éªéΦé⌐.txt", "r", encoding="utf-16") as infd:
    with open("りどみ・へなちょこえりか.txt", "w", encoding="utf-8") as outfd:
        buf = b""
        for rune in infd.read():
            try:
                buf += rune.encode("windows-1252")
            except UnicodeEncodeError:
                try:
                    buf += rune.encode("iso8859-1")
                except UnicodeEncodeError:
                    buf += rune.encode("shift-jis")
        outfd.write(buf.decode("shift-jis"))

Answer 1