Alguém pode explicar esse comportamento relacionado à codificação?

Question 1

Em UTF-16, os caracteres estão em dois bytes e para caracteres ASCII o byte mais alto é 0x00.

Por exemplo, "Algo" em UTF-16 é:

00000000  ff fe 53 00 6f 00 6d 00  65 00 74 00 68 00 69 00  |..S.o.m.e.t.h.i.|
00000010  6e 00 67 00 0a 00                                 |n.g...|

( OxFFFENo início está a marca de ordem de bytes, se você vir 0xFEFF você sabe que precisa trocar bytes...).

Os caracteres NUL espalhados por todo o lugar confundem o software ...

Você pode converter para um UTF-8 mais razoável, usando iconv:

iconv -f UTF-16 -t UTF-8 <utf16file >utf8file

E não se esqueça de alterar a codificação no cabeçalho do arquivo

Answer

Em UTF-16, os caracteres estão em dois bytes e para caracteres ASCII o byte mais alto é 0x00.

Por exemplo, "Algo" em UTF-16 é:

00000000  ff fe 53 00 6f 00 6d 00  65 00 74 00 68 00 69 00  |..S.o.m.e.t.h.i.|
00000010  6e 00 67 00 0a 00                                 |n.g...|

( OxFFFENo início está a marca de ordem de bytes, se você vir 0xFEFF você sabe que precisa trocar bytes...).

Os caracteres NUL espalhados por todo o lugar confundem o software ...

Você pode converter para um UTF-8 mais razoável, usando iconv:

iconv -f UTF-16 -t UTF-8 <utf16file >utf8file

E não se esqueça de alterar a codificação no cabeçalho do arquivo

Question 2

Se o arquivo for UTF-16 (codificação típica do Windows), você terá problemas no Linux (UTF-8 nativo, militante...). Pelo menos o GNU emacs diz que suporta UTF-16, nunca o usou com raiva.

Você pode tentar recode(1) para traduzir em UTF-8 (e corrigir cabeçalhos e similares para corresponder), mas isso pode quebrar horrivelmente as ferramentas que esperam UTF-16.

Atualizar:Pensei nisso: recodificar para UTF-8; mutilar, fuso, desfigurar à vontade; recodificar de volta para UTF-16. Dessa forma, você pode usar ferramentas familiares no meio. Masfazercorrigir a codificação UTF-16 anunciada, quem sabe se as ferramentas ficam confusas. Ou talvez as ferramentas de manipulação de XML prestem atenção a isso ...

Answer

Se o arquivo for UTF-16 (codificação típica do Windows), você terá problemas no Linux (UTF-8 nativo, militante...). Pelo menos o GNU emacs diz que suporta UTF-16, nunca o usou com raiva.

Você pode tentar recode(1) para traduzir em UTF-8 (e corrigir cabeçalhos e similares para corresponder), mas isso pode quebrar horrivelmente as ferramentas que esperam UTF-16.

Atualizar:Pensei nisso: recodificar para UTF-8; mutilar, fuso, desfigurar à vontade; recodificar de volta para UTF-16. Dessa forma, você pode usar ferramentas familiares no meio. Masfazercorrigir a codificação UTF-16 anunciada, quem sabe se as ferramentas ficam confusas. Ou talvez as ferramentas de manipulação de XML prestem atenção a isso ...

Alguém pode explicar esse comportamento relacionado à codificação?

Responder1

Responder2

informação relacionada