¿Cómo convertir esta cadena al japonés usando herramientas GNU/Linux?

Question

Las canalizaciones son una característica del sistema operativo que funciona con buffers de bytes y no interpreta su contenido de ninguna manera. Entonces el texto canalizado no pasa a bash yespecialmentenunca a través de 'readline'. Texto pegado como lo hacen los argumentos de la línea de comandos. (Y sí, tanto readline como el terminal pueden filtrar los caracteres de control como medida de seguridad).

Su archivo es en realidad una combinación de dos codificaciones windows-1252y iso8859-1, debido a las diferentes formas en que usan el bloque de caracteres de control C1 (0x80..0x9F).

ISO 8859-1 utiliza todo este rango para caracteres de control, y los bytes 0x80..0x9F corresponden a los puntos de código Unicode U+0080..U+009F.
Windows-1252no puedorepresentar caracteres de control C1; utiliza la mayor parte de este rango para caracteres imprimibles y tiene algunos "huecos", es decir, valores de bytes que no tienen nada asignado (0x81, 0x8D, 0x8F, 0x90, 0x9D).
Por lo demás, las dos codificaciones son idénticas en los rangos 0x00..0x7F y 0xA0..0xFF.

Tomemos la primera línea de su archivo de entrada "malo", decodificado de UTF-16 a texto Unicode y con caracteres no imprimibles escapados:

\u0081@\u0081™TdaŽ®\u008FÆ‚êƒ~ƒNƒXƒgƒŒ\u0081[ƒg\u0081EƒrƒLƒjver1.11d1.d2\u0081iƒrƒLƒjƒ‚ƒfƒ‹ver.1.1\u0090³Ž®”z•z”Å\u0081j\n

Puede ver \u0081(U+0081), que se asigna al byte 0x81 en ISO 8859-1 pero no se puede codificar en Windows-1252.
También puede ver el símbolo ƒ(U+0192), que se asigna a 0x83 en Windows-1252 pero no existe en absoluto en ISO 8859-1.

Entonces, el truco consiste en usar Windows-1252 cuando sea posible e ISO 8859-1 como alternativa, decidiendo individualmente para cada punto de código. (libiconv podría hacer esto a través de 'ICONV_SET_FALLBACKS', pero la iconvherramienta CLI no puede). Es fácil escribir su propia herramienta:

#!/usr/bin/env python3
with open("/dev/stdin", "rb") as infd:
    with open("/dev/stdout", "wb") as outfd:
        for rune in infd.read().decode("utf-16"):
            try:
                chr = rune.encode("windows-1252")
            except UnicodeEncodeError:
                chr = rune.encode("iso8859-1")
            outfd.write(chr)
            # outputs shift-jis

Tenga en cuenta que sólomediode tufichero de entradaestá mal codificado Shift-JIS. La otra mitad (inglés) está perfectamente bien en UTF-16; afortunadamente, Shift-JIS lo pasará por lo que no es necesaria la división manual:

#!/usr/bin/env python3
with open("éΦé╟é▌üEé╓é╚é┐éσé▒éªéΦé⌐.txt", "r", encoding="utf-16") as infd:
    with open("りどみ・へなちょこえりか.txt", "w", encoding="utf-8") as outfd:
        buf = b""
        for rune in infd.read():
            try:
                buf += rune.encode("windows-1252")
            except UnicodeEncodeError:
                try:
                    buf += rune.encode("iso8859-1")
                except UnicodeEncodeError:
                    buf += rune.encode("shift-jis")
        outfd.write(buf.decode("shift-jis"))

Answer 1