
.jpg および .png ファイルから Unicode 文字を抽出したい。
次のコマンドを使用して実行してみます:
tesseract 1.png output.txt
このコマンドは英語の文字には機能しますが、ヒンディー語、マラーティー語、デーヴァナーガリー文字などの Unicode に対して実行しようとすると、間違った出力が生成されます。
OCR を使用して Unicode (デーバナーガリー) スクリプトをテキスト ファイルに抽出するオプションはありますか?
答え1
Unicode スクリプトを抽出するオプションはありますか?
ヒンディー語、マラーティー語、デーヴァナーガリー文字などの Unicode で試してみると、間違った出力が生成されます。
すぐに使用できるのは のみのようですHindi
。
オプションを使用するには以下が必要です-l lang
:
tesseract 1.png output.txt -l hin
Marathi
tesseract をトレーニングして、、、などの他の言語を認識させることができますDevanagari
。
見る提供されているツールを使用して、新しい言語用に Tesseract 3.0x をトレーニングする方法
TESSERACT(1) マニュアルページ
オプション
...
-l lang
使用する言語。何も指定されていない場合は、英語が想定されます。プラス記号で区切って複数の言語を指定できます。Tesseract は 3 文字の ISO 639-2 言語コードを使用します。(LANGUAGES を参照)
...
言語
現在、次の言語の言語パックが利用可能です:
ara (アラビア語)、aze (アゼルバイジャン語)、bul (ブルガリア語)、cat (カタロニア語)、ces (チェコ語)、chi_sim (中国語簡体字)、chi_tra (中国語繁体字)、chr (チェロキー語)、dan (デンマーク語)、dan-frak (デンマーク語 (フラクトゥール語))、deu (ドイツ語)、ell (ギリシャ語)、eng (英語)、enm (古英語)、epo (エスペラント語)、est (エストニア語)、fin (フィンランド語)、fra (フランス語)、frm (古フランス語)、glg (ガリシア語)、heb (ヘブライ語)、hin (ヒンディー語)、hrv (クロアチア語)、hun (ハンガリー語)、ind (インドネシア語)、ita (イタリア語)、jpn (日本語)、kor (韓国語)、lav (ラトビア語)、lit (リトアニア語)、nld (オランダ語)、nor (ノルウェー語)、pol (ポーランド語)、por (ポルトガル語)、ron (ルーマニア語)、rus (ロシア語)、slk (スロバキア語)、slv (スロベニア語)、sqi (アルバニア語)、spa (スペイン語)、srp (セルビア語)、swe (スウェーデン語)、tam (タミル語)、tel (テルグ語)、tgl (タガログ語)、tha (タイ語)、tur (トルコ語)、ukr (ウクライナ語)、vie (ベトナム語)
foo.traineddata という名前の非標準言語パックを使用するには、ファイルが TESSDATA_PREFIX/tessdata/foo.traineddata にあるように TESSDATA_PREFIX 環境変数を設定し、Tesseract に引数 -l foo を指定します。