
私はいつもOCR技術オープンソースシステムで遅れをとっている。オクロプスプロジェクト初期の頃から。Linuxで利用できる最高のOCRエンジンと聞いているものを試してみたが、テッセラクト、ビジネス文書にはまったく不十分であることがわかりました。他にもっと有望な OCR 実装はありますか? 手書き文字を解釈するというさらに有望な目標についてはどうですか? この分野で *nix システムで何ができるでしょうか?
答え1
テッセラクト
2020年現在、入手可能な最高のオープンソースOCRソフトウェアはテッセラクト4新しいLSTM ニューラルネットワーク OCR モデルOCR のパフォーマンスは、バージョン 3 で使用されていた以前の OCR モデルよりもはるかに優れています。
output.pdf
例 (スキャンしたドイツ語文書のテキスト レイヤーを含むPDF ファイルを作成する):
$ echo page-*.png > input.list
$ tesseract --oem 1 -l deu input.list output pdf
( --oem 1
LSTMエンジンを有効にする)
認識されたテキストを標準出力に出力します。
$ tesseract --oem 1 -l deu page page-0001.png stdout
インストールされている言語の一覧:
$ tesseract --list-langs
非常に多くの言語/スクリプトのサポートがダウンロード可能な形式で利用可能訓練されたデータセットたとえば、Fraktur のデータ セットもあります。
新しいLSTMモデルでは、TesseractはOCRopus研究プロジェクト。
Tesseract バージョン 3 は、高品質の入力画像であってもパフォーマンスが比較的悪く、ダスト ピクセル内の単一文字 (テキスト コンテキスト外) を誤って検出することが多く、よく知られている単語で単一文字エラーが簡単に発生します。
楔形文字
楔形文字OCR のパフォーマンスはそれほど悪くありませんが、積極的にメンテナンスされておらず (最終リリースは 2011 年、バージョン 1.1)、簡単にクラッシュしたり、他にもいくつかの問題があります。
- セグメンテーション違反とさまざまなパッケージそしてリリース
- レイアウトアルゴリズムが単純に壊れており、1列の文書では段落がランダムに並べ替えられることが多い。
- 不明なオプションではエラーが発生しない
次のようにしてレイアウト アルゴリズムを無効にすることができます。
$ cuneiform --singlecolumn -l ger -f text -o foo.txt image-0001
(-l
ソース文書の言語を指定します)
オクラド
オクラド呼び出し例:
$ ocrad -F utf8 image-0001
デフォルトでは、テキストは stdout に印刷されます。
ビジネス文書では、下線付きの単語が抜け落ちていましたが、cuneiform/tesseract/gocr では抜け落ちませんでした。
Ocradのマニュアルには、使用されたアルゴリズム例:
5) 文字を検出し、行ごとにグループ化します。6
) 文字を認識します (非常にアドホックで、文字ごとに 1 つのアルゴリズム)。7
) あいまいさを修正します (l.OOO を 1.000 に変換するなど)。
GOCR
GOCR呼び出し例:
$ gocr image-0001
デフォルトでは、テキストは stdout に印刷されます。
GOCR のドキュメントには、OCR に使用されるモデル/メソッドに関する詳細はあまり含まれていません。
ハードウェア
正気自動ドキュメントフィード(ADF)スキャナのサポートが非常に優れています。アビジョンそして富士通もの。
Saneには、scanimage
スクリプトスキャンパイプラインを構築するために使用できるコマンドラインプログラムが含まれています(例:私のadf2pdf.py
脚本)。
答え2
私は見つけたStackOverflow での同様の質問そしてそのアスプライズOCR SDK、リンクされたコマーシャル製品には、Linux バージョンも用意されています。
答え3
... OCR は「文字認識だけ」ではありません。画像処理、前処理 - テキスト、画像、表、バーコードを見つけるためのページ/レイアウト分析。認識には、さまざまなフォント、サイズ、言語を扱う必要があります。良い結果を得るには辞書と言語定義を使用する必要があるため、これは重要です。最後に、人々はテキストよりも多くのエクスポート オプション (XML、RTF、検索可能な PDF など) を期待しています。SDK には商用オプションがいくつかありますが、安価ではなく無料です。
最近私はABBYY の Linux 用 CLI OCR100ページの無料トライアルがあります。
答え4
予算に余裕があれば、ぜひお勧めしますLinux 用 ABBYY FineReader Engine CLI当社では、Web アプリケーションで 1 年間使用しており、ライセンスの更新を予定しています。認識品質が非常に高く、コマンドライン インターフェイス、多くの言語で認識します。