Como converter um arquivo de texto com mistura de codificações em uma única codificação?

Question 1

Hmmm... o conceito de um arquivo com várias codificações é um tanto vacilante, para ser honesto. Se você tiver um pouco de tempo,Este artigo(eEste) vale a pena ler.

Para Linux, um arquivo é uma sequência de bytes. Se você pedir a um programa para interpretá-lo como um arquivo de texto, ele fará isso usando um mapeamento entre bytes e caracteres; esse mapeamento é a codificação. Quase todos os editores de texto que conheço (não processadores de texto!) apenas entendem o conceito de uma codificação para um arquivo.

Eu não sou especialista em gedit; talvez esteja fazendo alguma mágica, como tentar detectar automaticamente a codificação linha por linha ou bloco de texto por bloco de texto... se for o caso, você pode tentar fazer o mesmo usandoenca(1):

 while read line; do echo $line | enconv -L none -x utf8; done < text.mixed > text.utf8

... mas depende de quão bom é enca em adivinhar sua codificação (funciona quase bem com o Leste Europeu, mas não com Latin1, por exemplo).

(1) Está nos repositórios, basta instalá-lo com sudo apt-get enca.

Answer

Hmmm... o conceito de um arquivo com várias codificações é um tanto vacilante, para ser honesto. Se você tiver um pouco de tempo,Este artigo(eEste) vale a pena ler.

Para Linux, um arquivo é uma sequência de bytes. Se você pedir a um programa para interpretá-lo como um arquivo de texto, ele fará isso usando um mapeamento entre bytes e caracteres; esse mapeamento é a codificação. Quase todos os editores de texto que conheço (não processadores de texto!) apenas entendem o conceito de uma codificação para um arquivo.

Eu não sou especialista em gedit; talvez esteja fazendo alguma mágica, como tentar detectar automaticamente a codificação linha por linha ou bloco de texto por bloco de texto... se for o caso, você pode tentar fazer o mesmo usandoenca(1):

 while read line; do echo $line | enconv -L none -x utf8; done < text.mixed > text.utf8

... mas depende de quão bom é enca em adivinhar sua codificação (funciona quase bem com o Leste Europeu, mas não com Latin1, por exemplo).

(1) Está nos repositórios, basta instalá-lo com sudo apt-get enca.

Question 2

Eu tive o mesmo problema e resolvi com o Emacs. A solução é citada emaqui:

Outra solução possível é marcar cada região que aparece com caracteres chineses e recodificá-la com Mx recode-region, fornecendo "O texto estava realmente em" como utf-16-le e "Mas foi interpretado como" como utf-16-be.

Outra é dividir as duas partes que possuem codificações diferentes, copiá-las em arquivos diferentes, converter a codificação de uma e adicioná-la à outra. No meu caso, isso funcionou com o Atom, mas não com o Notepad++ (utf16-le/be).

Answer

Eu tive o mesmo problema e resolvi com o Emacs. A solução é citada emaqui:

Outra solução possível é marcar cada região que aparece com caracteres chineses e recodificá-la com Mx recode-region, fornecendo "O texto estava realmente em" como utf-16-le e "Mas foi interpretado como" como utf-16-be.

Outra é dividir as duas partes que possuem codificações diferentes, copiá-las em arquivos diferentes, converter a codificação de uma e adicioná-la à outra. No meu caso, isso funcionou com o Atom, mas não com o Notepad++ (utf16-le/be).

Como converter um arquivo de texto com mistura de codificações em uma única codificação?

Responder1

Responder2

informação relacionada