Как преобразовать текстовый файл со смесью кодировок в одну кодировку?

Question 1

Хм... концепция файла с разной кодировкой, честно говоря, несколько шаткая. Если у вас есть немного времени,Эта статья(иВот этот) стоит прочитать.

Для Linux файл — это последовательность байтов. Если вы попросите программу интерпретировать его как текстовый файл, она сделает это, используя сопоставление между байтами и символами; это сопоставление и есть кодировка. Почти все известные мне текстовые редакторы (не текстовые процессоры!) просто понимают концепцию одной кодировки для одного файла.

Я не эксперт в этом gedit; возможно, он делает какую-то магию, например, пытается автоматически определить кодировку строка за строкой или текстовый блок за текстовым блоком... если это так, вы можете попробовать сделать то же самое, используяenca(1):

 while read line; do echo $line | enconv -L none -x utf8; done < text.mixed > text.utf8

...но это зависит от того, насколько хорошо enca распознает вашу кодировку (например, она почти хорошо работает с восточноевропейской, но не с Latin1).

(1) Он есть в репозиториях, просто установите его с помощью sudo apt-get enca.

Answer

Хм... концепция файла с разной кодировкой, честно говоря, несколько шаткая. Если у вас есть немного времени,Эта статья(иВот этот) стоит прочитать.

Для Linux файл — это последовательность байтов. Если вы попросите программу интерпретировать его как текстовый файл, она сделает это, используя сопоставление между байтами и символами; это сопоставление и есть кодировка. Почти все известные мне текстовые редакторы (не текстовые процессоры!) просто понимают концепцию одной кодировки для одного файла.

Я не эксперт в этом gedit; возможно, он делает какую-то магию, например, пытается автоматически определить кодировку строка за строкой или текстовый блок за текстовым блоком... если это так, вы можете попробовать сделать то же самое, используяenca(1):

 while read line; do echo $line | enconv -L none -x utf8; done < text.mixed > text.utf8

...но это зависит от того, насколько хорошо enca распознает вашу кодировку (например, она почти хорошо работает с восточноевропейской, но не с Latin1).

(1) Он есть в репозиториях, просто установите его с помощью sudo apt-get enca.

Question 2

У меня была та же проблема, и я решил ее с помощью Emacs. Решение цитируется здесьздесь:

Другое возможное решение — пометить каждую область, появляющуюся с помощью китайских иероглифов, и перекодировать ее с помощью Mx recode-region, указав «Текст действительно был в» как utf-16-le, а «Но был интерпретирован как» как utf-16-be.

Другой способ — разделить две части с разными кодировками, скопировать их в разные файлы, преобразовать кодировку одной и добавить ее в другую. В моем случае это сработало с Atom, но не с Notepad++ (utf16-le/be).

Answer

У меня была та же проблема, и я решил ее с помощью Emacs. Решение цитируется здесьздесь:

Другое возможное решение — пометить каждую область, появляющуюся с помощью китайских иероглифов, и перекодировать ее с помощью Mx recode-region, указав «Текст действительно был в» как utf-16-le, а «Но был интерпретирован как» как utf-16-be.

Другой способ — разделить две части с разными кодировками, скопировать их в разные файлы, преобразовать кодировку одной и добавить ее в другую. В моем случае это сработало с Atom, но не с Notepad++ (utf16-le/be).

Как преобразовать текстовый файл со смесью кодировок в одну кодировку?

решение1

решение2

Связанный контент