¿Cómo convertir un archivo de texto con una combinación de codificaciones a una codificación única?

Question 1

Hmmm... el concepto de un archivo con varias codificaciones es algo inestable, para ser honesto. Si tienes un poco de tiempo,Este artículo(yÉste) vale la pena leer.

Para Linux un archivo es una secuencia de bytes. Si le pides a un programa que lo interprete como un archivo de texto, lo hará mediante un mapeo entre bytes y caracteres; este mapeo es la codificación. Casi todos los editores de texto que conozco (¡no los procesadores de texto!) simplemente entienden el concepto de una codificación para un archivo.

No soy experto en gedit; tal vez esté haciendo algo de magia, como intentar detectar automáticamente la codificación línea por línea o bloque de texto por bloque de texto... si es el caso, puedes intentar hacer lo mismo usandoenca(1):

 while read line; do echo $line | enconv -L none -x utf8; done < text.mixed > text.utf8

...pero depende de qué tan bueno sea enca para adivinar tu codificación (funciona casi bien con Europa del Este, pero no con Latin1, por ejemplo).

(1) Está en los repositorios, solo instálalo con sudo apt-get enca.

Answer

Hmmm... el concepto de un archivo con varias codificaciones es algo inestable, para ser honesto. Si tienes un poco de tiempo,Este artículo(yÉste) vale la pena leer.

Para Linux un archivo es una secuencia de bytes. Si le pides a un programa que lo interprete como un archivo de texto, lo hará mediante un mapeo entre bytes y caracteres; este mapeo es la codificación. Casi todos los editores de texto que conozco (¡no los procesadores de texto!) simplemente entienden el concepto de una codificación para un archivo.

No soy experto en gedit; tal vez esté haciendo algo de magia, como intentar detectar automáticamente la codificación línea por línea o bloque de texto por bloque de texto... si es el caso, puedes intentar hacer lo mismo usandoenca(1):

 while read line; do echo $line | enconv -L none -x utf8; done < text.mixed > text.utf8

...pero depende de qué tan bueno sea enca para adivinar tu codificación (funciona casi bien con Europa del Este, pero no con Latin1, por ejemplo).

(1) Está en los repositorios, solo instálalo con sudo apt-get enca.

Question 2

Tuve el mismo problema y lo resolví con Emacs. La solución se cita deaquí:

Otra posible solución es marcar cada región que aparece con caracteres chinos y recodificarla con Mx recode-region, dando "El texto estaba realmente en" como utf-16-le y "Pero fue interpretado como" como utf-16-be.

Otra es dividir las dos partes que tienen codificaciones diferentes, copiarlas en archivos diferentes, convertir la codificación de una y agregarla a la otra. En mi caso, esto funcionó con Atom, pero no con Notepad++ (utf16-le/be).

Answer

Tuve el mismo problema y lo resolví con Emacs. La solución se cita deaquí:

Otra posible solución es marcar cada región que aparece con caracteres chinos y recodificarla con Mx recode-region, dando "El texto estaba realmente en" como utf-16-le y "Pero fue interpretado como" como utf-16-be.

Otra es dividir las dos partes que tienen codificaciones diferentes, copiarlas en archivos diferentes, convertir la codificación de una y agregarla a la otra. En mi caso, esto funcionó con Atom, pero no con Notepad++ (utf16-le/be).

¿Cómo convertir un archivo de texto con una combinación de codificaciones a una codificación única?

Respuesta1

Respuesta2

información relacionada