¿Alguien puede explicar este comportamiento relacionado con la codificación?

Question 1

En UTF-16, los caracteres están en dos bytes y, para los caracteres ASCII, el byte superior es 0x00.

Por ejemplo "Algo" en UTF-16 es:

00000000  ff fe 53 00 6f 00 6d 00  65 00 74 00 68 00 69 00  |..S.o.m.e.t.h.i.|
00000010  6e 00 67 00 0a 00                                 |n.g...|

( OxFFFEAl principio está la marca de orden de bytes, si ve 0xFEFF sabrá que tiene que intercambiar bytes...).

Los caracteres NUL por todas partes confunden el software...

Puedes convertir a un UTF-8 más razonable, usando iconv:

iconv -f UTF-16 -t UTF-8 <utf16file >utf8file

Y no olvides cambiar la codificación en el encabezado del archivo.

Answer

En UTF-16, los caracteres están en dos bytes y, para los caracteres ASCII, el byte superior es 0x00.

Por ejemplo "Algo" en UTF-16 es:

00000000  ff fe 53 00 6f 00 6d 00  65 00 74 00 68 00 69 00  |..S.o.m.e.t.h.i.|
00000010  6e 00 67 00 0a 00                                 |n.g...|

( OxFFFEAl principio está la marca de orden de bytes, si ve 0xFEFF sabrá que tiene que intercambiar bytes...).

Los caracteres NUL por todas partes confunden el software...

Puedes convertir a un UTF-8 más razonable, usando iconv:

iconv -f UTF-16 -t UTF-8 <utf16file >utf8file

Y no olvides cambiar la codificación en el encabezado del archivo.

Question 2

Si el archivo es UTF-16 (codificación típica de Windows), tendrá problemas en Linux (UTF-8 nativo, militante...). Al menos GNU emacs dice que admite UTF-16, nunca lo ha usado con ira.

Puede intentar recode(1) para traducir a UTF-8 (y arreglar encabezados y demás para que coincidan), pero eso podría dañar horriblemente las herramientas que esperan UTF-16.

Actualizar:Solo pensé en esto: recodificar a UTF-8; destrozar, destrozar, desfigurar a su gusto; Vuelva a codificar a UTF-16. De esa manera puedes utilizar herramientas familiares en el medio. Perohacercorrige la codificación UTF-16 anunciada, quién sabe si las herramientas se confunden. O tal vez las herramientas de manipulación de XML presten atención a esto...

Answer

Si el archivo es UTF-16 (codificación típica de Windows), tendrá problemas en Linux (UTF-8 nativo, militante...). Al menos GNU emacs dice que admite UTF-16, nunca lo ha usado con ira.

Puede intentar recode(1) para traducir a UTF-8 (y arreglar encabezados y demás para que coincidan), pero eso podría dañar horriblemente las herramientas que esperan UTF-16.

Actualizar:Solo pensé en esto: recodificar a UTF-8; destrozar, destrozar, desfigurar a su gusto; Vuelva a codificar a UTF-16. De esa manera puedes utilizar herramientas familiares en el medio. Perohacercorrige la codificación UTF-16 anunciada, quién sabe si las herramientas se confunden. O tal vez las herramientas de manipulación de XML presten atención a esto...

¿Alguien puede explicar este comportamiento relacionado con la codificación?

Respuesta1

Respuesta2

información relacionada