このエンコード関連の動作を説明できる人はいますか?

Question 1

UTF-16 では、文字は 2 バイトで表され、ASCII 文字の場合、上位バイトは 0x00 です。

たとえば、UTF-16 の「Something」は次のようになります。

00000000  ff fe 53 00 6f 00 6d 00  65 00 74 00 68 00 69 00  |..S.o.m.e.t.h.i.|
00000010  6e 00 67 00 0a 00                                 |n.g...|

(OxFFFE先頭はバイトオーダーマークです。0xFEFF が表示されている場合は、バイトをスワップする必要があることがわかります...)。

いたるところに NUL 文字があると、ソフトウェアが混乱します...

次のようにして、より適切な UTF-8 に変換できますiconv。

iconv -f UTF-16 -t UTF-8 <utf16file >utf8file

ファイルヘッダーのエンコーディングを変更することを忘れないでください

Answer

UTF-16 では、文字は 2 バイトで表され、ASCII 文字の場合、上位バイトは 0x00 です。

たとえば、UTF-16 の「Something」は次のようになります。

00000000  ff fe 53 00 6f 00 6d 00  65 00 74 00 68 00 69 00  |..S.o.m.e.t.h.i.|
00000010  6e 00 67 00 0a 00                                 |n.g...|

(OxFFFE先頭はバイトオーダーマークです。0xFEFF が表示されている場合は、バイトをスワップする必要があることがわかります...)。

いたるところに NUL 文字があると、ソフトウェアが混乱します...

次のようにして、より適切な UTF-8 に変換できますiconv。

iconv -f UTF-16 -t UTF-8 <utf16file >utf8file

ファイルヘッダーのエンコーディングを変更することを忘れないでください

Question 2

ファイルが UTF-16 (Windows の一般的なエンコーディング) の場合、Linux (UTF-8 ネイティブ、過激派...) では問題が発生します。少なくとも GNU emacs は UTF-16 をサポートしていると述べており、実際に使用したことはありません。

recode(1) を実行して UTF-8 に変換し (そして一致するようにヘッダーなどを修正し) てみることもできますが、そうすると UTF-16 を想定しているツールがひどく壊れてしまう可能性があります。

アップデート：ちょっと考えてみたんだけど、UTF-8に再コード化して、ゆっくり改変して、スピンドルして、UTF-16に再コード化する。そうすれば、途中で使い慣れたツールが使える。でもする発表された UTF-16 エンコーディングを修正します。ツールが混乱するかどうかは誰にもわかりません。あるいは、XML マングリングツールがこれを考慮するかもしれません...

Answer

ファイルが UTF-16 (Windows の一般的なエンコーディング) の場合、Linux (UTF-8 ネイティブ、過激派...) では問題が発生します。少なくとも GNU emacs は UTF-16 をサポートしていると述べており、実際に使用したことはありません。

recode(1) を実行して UTF-8 に変換し (そして一致するようにヘッダーなどを修正し) てみることもできますが、そうすると UTF-16 を想定しているツールがひどく壊れてしまう可能性があります。

アップデート：ちょっと考えてみたんだけど、UTF-8に再コード化して、ゆっくり改変して、スピンドルして、UTF-16に再コード化する。そうすれば、途中で使い慣れたツールが使える。でもする発表された UTF-16 エンコーディングを修正します。ツールが混乱するかどうかは誰にもわかりません。あるいは、XML マングリングツールがこれを考慮するかもしれません...

このエンコード関連の動作を説明できる人はいますか?

答え1

答え2

関連情報