GNU/Linux 도구를 사용하여 이 문자열을 일본어로 변환하는 방법은 무엇입니까?

Question

파이프는 바이트 버퍼와 함께 작동하며 어떤 방식으로도 내용을 해석하지 않는 OS 기능입니다. 따라서 파이프된 텍스트는 bash로 전달되지 않으며특히절대 'readline'을 통해서는 안 됩니다. 명령줄 인수로 붙여넣은 텍스트도 마찬가지입니다. (그렇습니다. readline과 터미널 모두 보안 조치로 제어 문자를 필터링할 수 있습니다.)

귀하의 파일은 실제로 C1 제어 문자 블록(0x80..0x9F)을 사용하는 다양한 방식으로 인해 두 가지 인코딩이 혼합되어 있습니다 windows-1252.iso8859-1

ISO 8859-1은 제어 문자에 이 전체 범위를 사용하며 바이트 0x80..0x9F는 유니코드 코드 포인트 U+0080..U+009F에 해당합니다.
윈도우-1252할 수 없다C1 제어 문자를 나타냅니다. 이는 인쇄 가능한 문자에 대해 이 범위의 대부분을 사용하며 몇 가지 "구멍"(즉, 아무것도 할당되지 않은 바이트 값(0x81, 0x8D, 0x8F, 0x90, 0x9D))을 갖습니다.
두 인코딩은 0x00..0x7F 및 0xA0..0xFF 범위에서 동일합니다.

UTF-16에서 유니코드 텍스트로 디코딩되고 인쇄할 수 없는 문자가 이스케이프된 "잘못된" 입력 파일의 첫 번째 줄을 살펴보겠습니다.

\u0081@\u0081™TdaŽ®\u008FÆ‚êƒ~ƒNƒXƒgƒŒ\u0081[ƒg\u0081EƒrƒLƒjver1.11d1.d2\u0081iƒrƒLƒjƒ‚ƒfƒ‹ver.1.1\u0090³Ž®”z•z”Å\u0081j\n

\u0081ISO 8859-1에서는 바이트 0x81에 매핑되지만 Windows-1252에서는 인코딩할 수 없는 (U+0081)을 볼 수 있습니다 .
ƒWindows-1252에서는 0x83으로 매핑되지만 ISO 8859-1에서는 전혀 존재하지 않는 기호(U+0192)도 볼 수 있습니다 .

따라서 가능한 경우 Windows-1252를 사용하고 ISO 8859-1을 대체 수단으로 사용하여 각 코드 포인트에 대해 개별적으로 결정하는 것이 좋습니다. (libiconv는 'ICONV_SET_FALLBACKS'를 통해 이 작업을 수행할 수 있지만 CLI iconv도구는 수행할 수 없습니다.) 자신만의 도구를 작성하는 것은 쉽습니다.

#!/usr/bin/env python3
with open("/dev/stdin", "rb") as infd:
    with open("/dev/stdout", "wb") as outfd:
        for rune in infd.read().decode("utf-16"):
            try:
                chr = rune.encode("windows-1252")
            except UnicodeEncodeError:
                chr = rune.encode("iso8859-1")
            outfd.write(chr)
            # outputs shift-jis

참고하세요반당신의입력 파일잘못 인코딩된 Shift-JIS입니다. 나머지 절반(영어)은 완벽하게 UTF-16입니다. 다행히 Shift-JIS가 이를 통과하므로 수동 분할이 필요하지 않습니다.

#!/usr/bin/env python3
with open("éΦé╟é▌üEé╓é╚é┐éσé▒éªéΦé⌐.txt", "r", encoding="utf-16") as infd:
    with open("りどみ・へなちょこえりか.txt", "w", encoding="utf-8") as outfd:
        buf = b""
        for rune in infd.read():
            try:
                buf += rune.encode("windows-1252")
            except UnicodeEncodeError:
                try:
                    buf += rune.encode("iso8859-1")
                except UnicodeEncodeError:
                    buf += rune.encode("shift-jis")
        outfd.write(buf.decode("shift-jis"))

Answer 1