
私はスクリーンショットを含むさまざまな種類の画像内のテキストを検出するために tesseract を使用していますが、以下の例のように、スペルと文法の警告を示す赤と青の波線の下線によって混乱してしまいます。結局、テキストがまったく表示されないか、文字化けしたテキストが表示されます。
私は、imagemagick の前処理でこれらの線を除去する方法を検討し、ある程度成功しましたが、これらの方法では、赤または青のテキストがすべて消去されてしまうため、望ましくありません。また、実行に時間がかかり、1 日に 10 万枚を超える画像を処理する必要があります。これらの線を認識して破棄するように tesseract をトレーニングする方法があるのではないかと考えていますが、それがどのように機能するかはわかりません。
テキストを認識するように tesseract をトレーニングする方法に関するチュートリアルを見たことがありますが、テキスト以外のものを認識するようにトレーニングする方法は見たことがありません。これらの行を無視するように tesseract をトレーニングする方法、または tesseract が使用する Leptonica 設定で何かを行う方法はありますか?
この問題にうまく対処した方がいらっしゃいましたら、ぜひ教えてください。そうでなければ、どのようなアプローチが推奨されますか?
答え1
私は現在、Tesseractの教え方を学ぼうとしているところです(トレーニング用のLSTMファイルの作成方法に行き詰まっています)。しかし、トレーニングしたデータを微調整できることは知っています。私はjTessBoxエディターOCR 中に Tesseract が行う誤りを修正するために、トレーニングの形式で変更を実装する方法がまだ見つかっていませんが、そのツールはまさに必要なものだと思います。
jTessBoxEditor を使用すると、写真の OCR がどのように行われるかを確認でき、編集することもできますが、トレーニングの実装方法がまだわかりません (フォーラムとここでの応答をまだ待っています)。そのため、これ以上お手伝いすることはできません。これが私の理解の限界であり、質問は 2 年前のものであり、セットアップがすでに古くなっている可能性が高いため、誰も回答しないと思います。tesseract-ocr 4.* を試していますが、新しいバージョンでの指導は大きく変わりましたが、ツールも進化しているため、jTessBoxEditor で問題は解決できますが、実装方法がわからないため、これは実際には回答ではなく、部分的な回答にすぎません。
ほんの少しでもお役に立てれば幸いです。