如何使用 GNU/Linux 工具將此字串轉換為日文？

Question

管道是一項作業系統功能，它與位元組緩衝區一起使用，並且不會以任何方式解釋其內容。所以管道文本不會通過 bash 且尤其從來沒有通過「readline」。作為命令列參數貼上的文字也是如此。（是的，readline 和終端都可以過濾掉控製字元作為安全措施。）

您的檔案實際上是兩種編碼的混合，windows-1252和iso8859-1，因為它們使用 C1 控製字元區塊 (0x80..0x9F) 的方式不同。

ISO 8859-1 使用整個範圍作為控製字符，位元組 0x80..0x9F 對應於 Unicode 代碼點 U+0080..U+009F。
Windows-1252不能代表C1控製字元；它使用這個範圍的大部分作為可列印字符，並且有一些「漏洞」——即沒有分配任何內容的位元組值（0x81、0x8D、0x8F、0x90、0x9D）。
在 0x00..0x7F 和 0xA0..0xFF 範圍內，這兩種編碼在其他方面是相同的。

讓我們看看“壞”輸入文件的第一行，從 UTF-16 解碼為 Unicode 文本，並轉義不可打印的字符：

\u0081@\u0081™TdaŽ®\u008FÆ‚êƒ~ƒNƒXƒgƒŒ\u0081[ƒg\u0081EƒrƒLƒjver1.11d1.d2\u0081iƒrƒLƒjƒ‚ƒfƒ‹ver.1.1\u0090³Ž®”z•z”Å\u0081j\n

您可以看到\u0081(U+0081)，它會對應到 ISO 8859-1 中的位元組 0x81，但無法在 Windows-1252 中進行編碼。
您也可以看到符號ƒ(U+0192)，它在 Windows-1252 中對應到 0x83，但在 ISO 8859-1 中根本不存在。

因此，訣竅是盡可能使用 Windows-1252，並使用 ISO 8859-1 作為後備，為每個代碼點單獨決定。（libiconv 可以透過「ICONV_SET_FALLBACKS」來完成此操作，但 CLIiconv工具不能。）編寫自己的工具很容易：

#!/usr/bin/env python3
with open("/dev/stdin", "rb") as infd:
    with open("/dev/stdout", "wb") as outfd:
        for rune in infd.read().decode("utf-16"):
            try:
                chr = rune.encode("windows-1252")
            except UnicodeEncodeError:
                chr = rune.encode("iso8859-1")
            outfd.write(chr)
            # outputs shift-jis

請注意，僅一半你的輸入檔是錯誤編碼的 Shift-JIS。另一半（英文）則完全可以使用 UTF-16；幸運的是 Shift-JIS 會通過它，因此不需要手動拆分：

#!/usr/bin/env python3
with open("éΦé╟é▌üEé╓é╚é┐éσé▒éªéΦé⌐.txt", "r", encoding="utf-16") as infd:
    with open("りどみ・へなちょこえりか.txt", "w", encoding="utf-8") as outfd:
        buf = b""
        for rune in infd.read():
            try:
                buf += rune.encode("windows-1252")
            except UnicodeEncodeError:
                try:
                    buf += rune.encode("iso8859-1")
                except UnicodeEncodeError:
                    buf += rune.encode("shift-jis")
        outfd.write(buf.decode("shift-jis"))

Answer 1