奇妙な文字を識別するにはどうすればよいでしょうか?

Question 1

ファイルには16進数でEBと0Aの2バイトが含まれています。ファイルは1文字あたり1バイトの文字セットを使用している可能性があります。ISO-8859-1; その文字セットでは、EB は ë です。

$ printf "\353\n" | iconv -f ISO-8859-1
ë

他の候補としてはδが挙げられますコードページ 437、Ùでコードページ 850...

od -xこの場合、エンディアンのため、出力は混乱を招きます。より良いオプションは、-t x1単一バイトを使用するです。

$ printf "\353\n" | od -t x1
0000000 eb 0a
0000002

od -xod -t x2一度に 2 バイトを読み取り、リトルエンディアンシステムでは逆の順序でバイトを出力するマップです。

このような有効な UTF-8 ではない (または UTF-8 ファイルとして解釈しても意味をなさない) ファイルに遭遇した場合、そのエンコード (および文字セット) を自動的に判別する確実な方法はありません。コンテキストが役立ちます。過去 20 年以内に欧米の PC で作成されたファイルであれば、ISO-8859-1、-15 (ユーロ版)、または Windows-1252 でエンコードされている可能性が高くなります。それより古いファイルであれば、CP-437 および CP-850 が候補となる可能性があります。東ヨーロッパのシステム、ロシアのシステム、またはアジアのシステムからのファイルは、私があまり知らないさまざまな文字セットを使用します。次に、EBCDIC があります... は、が認識しているiconv -lすべての文字セットを一覧表示しますiconv。そこから試行錯誤して進めることができます。

(一時期、私は CP-437 と ATASCII のほとんどを暗記していました。あの頃はよかったです。)

Answer

ファイルには16進数でEBと0Aの2バイトが含まれています。ファイルは1文字あたり1バイトの文字セットを使用している可能性があります。ISO-8859-1; その文字セットでは、EB は ë です。

$ printf "\353\n" | iconv -f ISO-8859-1
ë

他の候補としてはδが挙げられますコードページ 437、Ùでコードページ 850...

od -xこの場合、エンディアンのため、出力は混乱を招きます。より良いオプションは、-t x1単一バイトを使用するです。

$ printf "\353\n" | od -t x1
0000000 eb 0a
0000002

od -xod -t x2一度に 2 バイトを読み取り、リトルエンディアンシステムでは逆の順序でバイトを出力するマップです。

このような有効な UTF-8 ではない (または UTF-8 ファイルとして解釈しても意味をなさない) ファイルに遭遇した場合、そのエンコード (および文字セット) を自動的に判別する確実な方法はありません。コンテキストが役立ちます。過去 20 年以内に欧米の PC で作成されたファイルであれば、ISO-8859-1、-15 (ユーロ版)、または Windows-1252 でエンコードされている可能性が高くなります。それより古いファイルであれば、CP-437 および CP-850 が候補となる可能性があります。東ヨーロッパのシステム、ロシアのシステム、またはアジアのシステムからのファイルは、私があまり知らないさまざまな文字セットを使用します。次に、EBCDIC があります... は、が認識しているiconv -lすべての文字セットを一覧表示しますiconv。そこから試行錯誤して進めることができます。

(一時期、私は CP-437 と ATASCII のほとんどを暗記していました。あの頃はよかったです。)

Question 2

はのod略です8進ダンプ、0053532 バイトは 8 進ワードとして、od -xは0aeb16 進ワードとして、ファイルの実際の内容は 2 バイトebと0a16 進数で、この順序になります。

したがって、と005353は両方とも、0aeb単に「16 進コードポイント」として解釈することはできません。

0aは改行コード (LF) であり、ebエンコードによって異なります。fileエンコードは推測に過ぎず、何でもかまいません。ファイルの出所などの詳細情報がなければ、見つけ出すのは困難です。

Answer

はのod略です8進ダンプ、0053532 バイトは 8 進ワードとして、od -xは0aeb16 進ワードとして、ファイルの実際の内容は 2 バイトebと0a16 進数で、この順序になります。

したがって、と005353は両方とも、0aeb単に「16 進コードポイント」として解釈することはできません。

0aは改行コード (LF) であり、ebエンコードによって異なります。fileエンコードは推測に過ぎず、何でもかまいません。ファイルの出所などの詳細情報がなければ、見つけ出すのは困難です。

Question 3

テキストファイルの文字セットを 100% の精度で推測することは不可能です。

次のようなツールシャルデ、ファイアフォックス、ファイル -i明示的に文字セット情報が定義されていない場合 (たとえば、HTML のヘッダーに meta charset=... が含まれている場合は、処理が簡単になります)、テキストが十分に大きい場合はそれほど悪くないヒューリスティックを使用しようとします。

以下では、chardet(必要に応じてpip install chardet/ apt-get install python-chardet) を使用して文字セット検出を示します。

$ echo "in Noël" | iconv -f utf8 -t latin1  | chardet
<stdin>: windows-1252 with confidence 0.73

適切な文字セット候補が得られたら、または同様のものを使用して、iconvファイルrecodeの文字セットを「アクティブな」文字セット (私の場合は utf-8) に変更し、正しく推測されたかどうかを確認できます...

iconv -f windows-1252  -t utf-8 file

一部の文字セット (iso-8859-3、iso-8859-1 など) には多くの共通文字があるため、最適な文字セットが見つかったかどうかを確認するのは簡単ではない場合があります...

したがって、関連するテキスト (XML など) にメタデータを関連付けることが非常に重要です。

Answer

テキストファイルの文字セットを 100% の精度で推測することは不可能です。

次のようなツールシャルデ、ファイアフォックス、ファイル -i明示的に文字セット情報が定義されていない場合 (たとえば、HTML のヘッダーに meta charset=... が含まれている場合は、処理が簡単になります)、テキストが十分に大きい場合はそれほど悪くないヒューリスティックを使用しようとします。

以下では、chardet(必要に応じてpip install chardet/ apt-get install python-chardet) を使用して文字セット検出を示します。

$ echo "in Noël" | iconv -f utf8 -t latin1  | chardet
<stdin>: windows-1252 with confidence 0.73

適切な文字セット候補が得られたら、または同様のものを使用して、iconvファイルrecodeの文字セットを「アクティブな」文字セット (私の場合は utf-8) に変更し、正しく推測されたかどうかを確認できます...

iconv -f windows-1252  -t utf-8 file

一部の文字セット (iso-8859-3、iso-8859-1 など) には多くの共通文字があるため、最適な文字セットが見つかったかどうかを確認するのは簡単ではない場合があります...

したがって、関連するテキスト (XML など) にメタデータを関連付けることが非常に重要です。

Question 4

#!/bin/bash
#
# Search in a file, a known (part of a ) String (i.E.: Begrüßung),
# by testing all encodings
#
[[ $# -ne 2 ]] && echo "Usage: encoding-finder.sh FILE fUnKy_CHAR_FOR_SURE_IN_FILE" && exit
FILE=$1
PATTERN=$2
for enc in $( iconv -l | sed 's/..$//') 
do 
    iconv -f $enc -t UTF-8 $FILE  2>/dev/null | grep -m 1 $PATTERN && echo $enc 
done

たとえば、Begrung という単語を含むファイルを取得した場合、Begrüßung を意味している可能性があると推測できます。そのため、既知のすべてのエンコードで変換し、適切に変換するエンコードが見つかるかどうかを確認します。

通常、適合すると思われるエンコーディングは複数あります。

長いファイルの場合は、数百ページを変換するのではなく、スニペットを切り取ることがあります。

だから私はそれを

encodingfinder.sh FILE Begrüßung

そして、スクリプトは、既知のエンコーディングで変換することによって、どれが「Begrüßung」を生成するかをテストします。

このような文字を見つけるには、通常 less が役立ちます。なぜなら、奇妙な文字は目立つことが多いからです。文脈から、検索する適切な単語は通常推測できます。しかし、16 進エディターでこれがどのバイトであるかを確認し、エンコーディングの無限のテーブルにアクセスして、違反者を見つけるのは望ましくありません。:)

Answer

#!/bin/bash
#
# Search in a file, a known (part of a ) String (i.E.: Begrüßung),
# by testing all encodings
#
[[ $# -ne 2 ]] && echo "Usage: encoding-finder.sh FILE fUnKy_CHAR_FOR_SURE_IN_FILE" && exit
FILE=$1
PATTERN=$2
for enc in $( iconv -l | sed 's/..$//') 
do 
    iconv -f $enc -t UTF-8 $FILE  2>/dev/null | grep -m 1 $PATTERN && echo $enc 
done