누구든지 이 인코딩 관련 동작을 설명할 수 있습니까?

Question 1

UTF-16에서 문자는 2바이트이고 ASCII 문자의 경우 상위 바이트는 0x00입니다.

예를 들어 UTF-16의 "Something"은 다음과 같습니다.

00000000  ff fe 53 00 6f 00 6d 00  65 00 74 00 68 00 69 00  |..S.o.m.e.t.h.i.|
00000010  6e 00 67 00 0a 00                                 |n.g...|

( OxFFFE시작 부분은 바이트 순서 표시입니다. 0xFEFF가 표시되면 바이트를 교환해야 한다는 것을 알 수 있습니다...).

여기저기서 NUL 문자가 소프트웨어를 혼란스럽게 합니다...

다음을 사용하여 보다 합리적인 UTF-8로 변환할 수 있습니다 iconv.

iconv -f UTF-16 -t UTF-8 <utf16file >utf8file

그리고 파일 헤더의 인코딩을 변경하는 것을 잊지 마세요.

Answer

UTF-16에서 문자는 2바이트이고 ASCII 문자의 경우 상위 바이트는 0x00입니다.

예를 들어 UTF-16의 "Something"은 다음과 같습니다.

00000000  ff fe 53 00 6f 00 6d 00  65 00 74 00 68 00 69 00  |..S.o.m.e.t.h.i.|
00000010  6e 00 67 00 0a 00                                 |n.g...|

( OxFFFE시작 부분은 바이트 순서 표시입니다. 0xFEFF가 표시되면 바이트를 교환해야 한다는 것을 알 수 있습니다...).

여기저기서 NUL 문자가 소프트웨어를 혼란스럽게 합니다...

다음을 사용하여 보다 합리적인 UTF-8로 변환할 수 있습니다 iconv.

iconv -f UTF-16 -t UTF-8 <utf16file >utf8file

그리고 파일 헤더의 인코딩을 변경하는 것을 잊지 마세요.

Question 2

파일이 UTF-16(Windows 일반 인코딩)인 경우 Linux(UTF-8 기본, 전투적...)에서는 문제가 발생합니다. 적어도 GNU emacs는 UTF-16을 지원한다고 말하고 분노에 찬 적이 없습니다.

recode(1)를 사용하여 UTF-8로 변환하고 일치하도록 헤더 등을 수정하려고 시도할 수 있지만 이로 인해 UTF-16을 기대하는 도구가 심각하게 손상될 수 있습니다.

업데이트:이것에 대해 생각해 보십시오. UTF-8로 다시 코딩하십시오. 여가 시간에는 엉망이 되고, 스핀들이고, 훼손됩니다. UTF-16으로 다시 코딩하세요. 이렇게 하면 중간에 익숙한 도구를 사용할 수 있습니다. 하지만하다도구가 혼동되는지 알 수 있는 UTF-16 인코딩을 수정합니다. 아니면 XML 맹글링 도구가 이에 주의를 기울일 수도 있습니다...

Answer

파일이 UTF-16(Windows 일반 인코딩)인 경우 Linux(UTF-8 기본, 전투적...)에서는 문제가 발생합니다. 적어도 GNU emacs는 UTF-16을 지원한다고 말하고 분노에 찬 적이 없습니다.

recode(1)를 사용하여 UTF-8로 변환하고 일치하도록 헤더 등을 수정하려고 시도할 수 있지만 이로 인해 UTF-16을 기대하는 도구가 심각하게 손상될 수 있습니다.

업데이트:이것에 대해 생각해 보십시오. UTF-8로 다시 코딩하십시오. 여가 시간에는 엉망이 되고, 스핀들이고, 훼손됩니다. UTF-16으로 다시 코딩하세요. 이렇게 하면 중간에 익숙한 도구를 사용할 수 있습니다. 하지만하다도구가 혼동되는지 알 수 있는 UTF-16 인코딩을 수정합니다. 아니면 XML 맹글링 도구가 이에 주의를 기울일 수도 있습니다...

누구든지 이 인코딩 관련 동작을 설명할 수 있습니까?

답변1

답변2

관련 정보