複数のエンコードが混在するテキストファイルを単一のエンコードに変換するにはどうすればよいですか?

Question 1

うーん... 正直言って、さまざまなエンコードのファイルの概念はやや不安定です。少し時間があれば、この記事（そしてこれです）は読む価値があります。

Linux では、ファイルはバイトのシーケンスです。プログラムにそれをテキストファイルとして解釈するように指示すると、バイトと文字のマッピングを使用して解釈します。このマッピングがエンコーディングです。私が知っているほとんどすべてのテキストエディター (ワードプロセッサではありません!) は、1 つのファイルに 1 つのエンコーディングという概念を理解しています。

私は専門家ではないのでgedit、行ごとまたはテキストブロックごとにエンコーディングを自動検出しようとするような魔法が働いているのかもしれません...もしそうなら、同じことを試してください。enca（１）：

 while read line; do echo $line | enconv -L none -x utf8; done < text.mixed > text.utf8

...ただし、enca がエンコードを推測する精度に依存します (たとえば、Eastern European ではほぼ正常に動作しますが、Latin1 では動作しません)。

(1) リポジトリにあるので、を使ってインストールするだけですsudo apt-get enca。

Answer

うーん... 正直言って、さまざまなエンコードのファイルの概念はやや不安定です。少し時間があれば、この記事（そしてこれです）は読む価値があります。

Linux では、ファイルはバイトのシーケンスです。プログラムにそれをテキストファイルとして解釈するように指示すると、バイトと文字のマッピングを使用して解釈します。このマッピングがエンコーディングです。私が知っているほとんどすべてのテキストエディター (ワードプロセッサではありません!) は、1 つのファイルに 1 つのエンコーディングという概念を理解しています。

私は専門家ではないのでgedit、行ごとまたはテキストブロックごとにエンコーディングを自動検出しようとするような魔法が働いているのかもしれません...もしそうなら、同じことを試してください。enca（１）：

 while read line; do echo $line | enconv -L none -x utf8; done < text.mixed > text.utf8

...ただし、enca がエンコードを推測する精度に依存します (たとえば、Eastern European ではほぼ正常に動作しますが、Latin1 では動作しません)。

(1) リポジトリにあるので、を使ってインストールするだけですsudo apt-get enca。

Question 2

私も同じ問題を抱えていましたが、Emacsで解決しました。解決策は以下から引用しました。ここ:

もう 1 つの解決策としては、中国語の文字が表示されている各領域をマークし、Mx recode-region を使用して再コード化し、「テキストは実際には」を utf-16-le として、「ただし、次のように解釈されました」を utf-16-be として指定することです。

もう 1 つの方法は、異なるエンコーディングを持つ 2 つの部分を分割し、それらを別のファイルにコピーし、一方のエンコーディングを変換してもう一方に追加することです。私の場合、これは Atom では機能しましたが、Notepad++ (utf16-le/be) では機能しませんでした。

Answer

私も同じ問題を抱えていましたが、Emacsで解決しました。解決策は以下から引用しました。ここ:

もう 1 つの解決策としては、中国語の文字が表示されている各領域をマークし、Mx recode-region を使用して再コード化し、「テキストは実際には」を utf-16-le として、「ただし、次のように解釈されました」を utf-16-be として指定することです。

もう 1 つの方法は、異なるエンコーディングを持つ 2 つの部分を分割し、それらを別のファイルにコピーし、一方のエンコーディングを変換してもう一方に追加することです。私の場合、これは Atom では機能しましたが、Notepad++ (utf16-le/be) では機能しませんでした。

複数のエンコードが混在するテキストファイルを単一のエンコードに変換するにはどうすればよいですか?

答え1

答え2

関連情報