Linux システムでの OCR

Question 1

テッセラクト

2020年現在、入手可能な最高のオープンソースOCRソフトウェアはテッセラクト4新しいLSTM ニューラルネットワーク OCR モデルOCR のパフォーマンスは、バージョン 3 で使用されていた以前の OCR モデルよりもはるかに優れています。

output.pdf例 (スキャンしたドイツ語文書のテキストレイヤーを含むPDF ファイルを作成する):

$ echo page-*.png > input.list
$ tesseract --oem 1 -l deu input.list output pdf

( --oem 1LSTMエンジンを有効にする)

認識されたテキストを標準出力に出力します。

$ tesseract --oem 1 -l deu page page-0001.png stdout

インストールされている言語の一覧:

$ tesseract --list-langs

非常に多くの言語/スクリプトのサポートがダウンロード可能な形式で利用可能訓練されたデータセットたとえば、Fraktur のデータセットもあります。

新しいLSTMモデルでは、TesseractはOCRopus研究プロジェクト。

Tesseract バージョン 3 は、高品質の入力画像であってもパフォーマンスが比較的悪く、ダストピクセル内の単一文字 (テキストコンテキスト外) を誤って検出することが多く、よく知られている単語で単一文字エラーが簡単に発生します。

楔形文字

楔形文字OCR のパフォーマンスはそれほど悪くありませんが、積極的にメンテナンスされておらず (最終リリースは 2011 年、バージョン 1.1)、簡単にクラッシュしたり、他にもいくつかの問題があります。

セグメンテーション違反とさまざまなパッケージそしてリリース
レイアウトアルゴリズムが単純に壊れており、1列の文書では段落がランダムに並べ替えられることが多い。
不明なオプションではエラーが発生しない

次のようにしてレイアウトアルゴリズムを無効にすることができます。

$ cuneiform --singlecolumn -l ger -f text -o foo.txt image-0001

（-lソース文書の言語を指定します）

オクラド

オクラド呼び出し例:

$ ocrad -F utf8 image-0001

デフォルトでは、テキストは stdout に印刷されます。

ビジネス文書では、下線付きの単語が抜け落ちていましたが、cuneiform/tesseract/gocr では抜け落ちませんでした。

Ocradのマニュアルには、使用されたアルゴリズム例:

5) 文字を検出し、行ごとにグループ化します。6
) 文字を認識します (非常にアドホックで、文字ごとに 1 つのアルゴリズム)。7
) あいまいさを修正します (l.OOO を 1.000 に変換するなど)。

GOCR

GOCR呼び出し例:

$ gocr image-0001

デフォルトでは、テキストは stdout に印刷されます。

GOCR のドキュメントには、OCR に使用されるモデル/メソッドに関する詳細はあまり含まれていません。

ハードウェア

正気自動ドキュメントフィード（ADF）スキャナのサポートが非常に優れています。アビジョンそして富士通もの。

Saneには、scanimageスクリプトスキャンパイプラインを構築するために使用できるコマンドラインプログラムが含まれています（例：私のadf2pdf.py脚本）。

Answer

テッセラクト

2020年現在、入手可能な最高のオープンソースOCRソフトウェアはテッセラクト4新しいLSTM ニューラルネットワーク OCR モデルOCR のパフォーマンスは、バージョン 3 で使用されていた以前の OCR モデルよりもはるかに優れています。

output.pdf例 (スキャンしたドイツ語文書のテキストレイヤーを含むPDF ファイルを作成する):

$ echo page-*.png > input.list
$ tesseract --oem 1 -l deu input.list output pdf

( --oem 1LSTMエンジンを有効にする)

認識されたテキストを標準出力に出力します。

$ tesseract --oem 1 -l deu page page-0001.png stdout

インストールされている言語の一覧:

$ tesseract --list-langs

非常に多くの言語/スクリプトのサポートがダウンロード可能な形式で利用可能訓練されたデータセットたとえば、Fraktur のデータセットもあります。

新しいLSTMモデルでは、TesseractはOCRopus研究プロジェクト。

Tesseract バージョン 3 は、高品質の入力画像であってもパフォーマンスが比較的悪く、ダストピクセル内の単一文字 (テキストコンテキスト外) を誤って検出することが多く、よく知られている単語で単一文字エラーが簡単に発生します。

楔形文字

楔形文字OCR のパフォーマンスはそれほど悪くありませんが、積極的にメンテナンスされておらず (最終リリースは 2011 年、バージョン 1.1)、簡単にクラッシュしたり、他にもいくつかの問題があります。

セグメンテーション違反とさまざまなパッケージそしてリリース
レイアウトアルゴリズムが単純に壊れており、1列の文書では段落がランダムに並べ替えられることが多い。
不明なオプションではエラーが発生しない

次のようにしてレイアウトアルゴリズムを無効にすることができます。

$ cuneiform --singlecolumn -l ger -f text -o foo.txt image-0001

（-lソース文書の言語を指定します）

オクラド

オクラド呼び出し例:

$ ocrad -F utf8 image-0001

デフォルトでは、テキストは stdout に印刷されます。

ビジネス文書では、下線付きの単語が抜け落ちていましたが、cuneiform/tesseract/gocr では抜け落ちませんでした。

Ocradのマニュアルには、使用されたアルゴリズム例:

5) 文字を検出し、行ごとにグループ化します。6
) 文字を認識します (非常にアドホックで、文字ごとに 1 つのアルゴリズム)。7
) あいまいさを修正します (l.OOO を 1.000 に変換するなど)。

GOCR

GOCR呼び出し例:

$ gocr image-0001

デフォルトでは、テキストは stdout に印刷されます。

GOCR のドキュメントには、OCR に使用されるモデル/メソッドに関する詳細はあまり含まれていません。

ハードウェア

正気自動ドキュメントフィード（ADF）スキャナのサポートが非常に優れています。アビジョンそして富士通もの。

Saneには、scanimageスクリプトスキャンパイプラインを構築するために使用できるコマンドラインプログラムが含まれています（例：私のadf2pdf.py脚本）。

Question 2

私は見つけたStackOverflow での同様の質問そしてそのアスプライズOCR SDK、リンクされたコマーシャル製品には、Linux バージョンも用意されています。

Answer

私は見つけたStackOverflow での同様の質問そしてそのアスプライズOCR SDK、リンクされたコマーシャル製品には、Linux バージョンも用意されています。

Question 3

... OCR は「文字認識だけ」ではありません。画像処理、前処理 - テキスト、画像、表、バーコードを見つけるためのページ/レイアウト分析。認識には、さまざまなフォント、サイズ、言語を扱う必要があります。良い結果を得るには辞書と言語定義を使用する必要があるため、これは重要です。最後に、人々はテキストよりも多くのエクスポートオプション (XML、RTF、検索可能な PDF など) を期待しています。SDK には商用オプションがいくつかありますが、安価ではなく無料です。

最近私はABBYY の Linux 用 CLI OCR100ページの無料トライアルがあります。

Answer

... OCR は「文字認識だけ」ではありません。画像処理、前処理 - テキスト、画像、表、バーコードを見つけるためのページ/レイアウト分析。認識には、さまざまなフォント、サイズ、言語を扱う必要があります。良い結果を得るには辞書と言語定義を使用する必要があるため、これは重要です。最後に、人々はテキストよりも多くのエクスポートオプション (XML、RTF、検索可能な PDF など) を期待しています。SDK には商用オプションがいくつかありますが、安価ではなく無料です。

最近私はABBYY の Linux 用 CLI OCR100ページの無料トライアルがあります。

Question 4

予算に余裕があれば、ぜひお勧めしますLinux 用 ABBYY FineReader Engine CLI当社では、Web アプリケーションで 1 年間使用しており、ライセンスの更新を予定しています。認識品質が非常に高く、コマンドラインインターフェイス、多くの言語で認識します。

Answer

予算に余裕があれば、ぜひお勧めしますLinux 用 ABBYY FineReader Engine CLI当社では、Web アプリケーションで 1 年間使用しており、ライセンスの更新を予定しています。認識品質が非常に高く、コマンドラインインターフェイス、多くの言語で認識します。

Linux システムでの OCR

答え1

テッセラクト

楔形文字

オクラド

GOCR

ハードウェア

答え2

答え3

答え4

関連情報