誰能解釋這種與編碼相關的行為？

Question 1

在 UTF-16 中，字元位於兩個位元組上，對於 ASCII 字符，高位元組為 0x00。

例如 UTF-16 中的「Something」是：

00000000  ff fe 53 00 6f 00 6d 00  65 00 74 00 68 00 69 00  |..S.o.m.e.t.h.i.|
00000010  6e 00 67 00 0a 00                                 |n.g...|

（OxFFFE開頭是位元組順序標記，如果您看到 0xFEFF，您就知道必須交換位元組...）。

到處都是 NUL 字元確實會讓軟體感到困惑...

您可以使用以下命令轉換為更合理的 UTF-8 iconv：

iconv -f UTF-16 -t UTF-8 <utf16file >utf8file

並且不要忘記更改文件頭中的編碼

Answer

在 UTF-16 中，字元位於兩個位元組上，對於 ASCII 字符，高位元組為 0x00。

例如 UTF-16 中的「Something」是：

00000000  ff fe 53 00 6f 00 6d 00  65 00 74 00 68 00 69 00  |..S.o.m.e.t.h.i.|
00000010  6e 00 67 00 0a 00                                 |n.g...|

（OxFFFE開頭是位元組順序標記，如果您看到 0xFEFF，您就知道必須交換位元組...）。

到處都是 NUL 字元確實會讓軟體感到困惑...

您可以使用以下命令轉換為更合理的 UTF-8 iconv：

iconv -f UTF-16 -t UTF-8 <utf16file >utf8file

並且不要忘記更改文件頭中的編碼

Question 2

如果檔案是 UTF-16（Windows 典型編碼），那麼您在 Linux 下就會遇到麻煩（UTF-8 原生，激進...）。至少GNU emacs說它支援UTF-16，從來沒有憤怒地使用過它。

您可以嘗試 recode(1) 轉換為 UTF-8（並修復標頭等以匹配），但這可能會嚴重破壞需要 UTF-16 的工具。

更新：只是想到了這一點：重新編碼為UTF-8；閒暇時碾壓、紡錘、污損；重新編碼回 UTF-16。這樣你就可以在中間使用熟悉的工具。但做修復已公佈的 UTF-16 編碼，誰知道工具是否會感到困惑。或者也許 XML 修改工具確實注意到了這一點...

Answer

如果檔案是 UTF-16（Windows 典型編碼），那麼您在 Linux 下就會遇到麻煩（UTF-8 原生，激進...）。至少GNU emacs說它支援UTF-16，從來沒有憤怒地使用過它。

您可以嘗試 recode(1) 轉換為 UTF-8（並修復標頭等以匹配），但這可能會嚴重破壞需要 UTF-16 的工具。

更新：只是想到了這一點：重新編碼為UTF-8；閒暇時碾壓、紡錘、污損；重新編碼回 UTF-16。這樣你就可以在中間使用熟悉的工具。但做修復已公佈的 UTF-16 編碼，誰知道工具是否會感到困惑。或者也許 XML 修改工具確實注意到了這一點...

相關內容