スペルや文法の誤り検出によって追加された波線を無視するように tesseract をトレーニングするにはどうすればよいですか?

Question

私は現在、Tesseractの教え方を学ぼうとしているところです（トレーニング用のLSTMファイルの作成方法に行き詰まっています）。しかし、トレーニングしたデータを微調整できることは知っています。私はjTessBoxエディターOCR 中に Tesseract が行う誤りを修正するために、トレーニングの形式で変更を実装する方法がまだ見つかっていませんが、そのツールはまさに必要なものだと思います。

jTessBoxEditor を使用すると、写真の OCR がどのように行われるかを確認でき、編集することもできますが、トレーニングの実装方法がまだわかりません (フォーラムとここでの応答をまだ待っています)。そのため、これ以上お手伝いすることはできません。これが私の理解の限界であり、質問は 2 年前のものであり、セットアップがすでに古くなっている可能性が高いため、誰も回答しないと思います。tesseract-ocr 4.* を試していますが、新しいバージョンでの指導は大きく変わりましたが、ツールも進化しているため、jTessBoxEditor で問題は解決できますが、実装方法がわからないため、これは実際には回答ではなく、部分的な回答にすぎません。

ほんの少しでもお役に立てれば幸いです。

Answer 1

私は現在、Tesseractの教え方を学ぼうとしているところです（トレーニング用のLSTMファイルの作成方法に行き詰まっています）。しかし、トレーニングしたデータを微調整できることは知っています。私はjTessBoxエディターOCR 中に Tesseract が行う誤りを修正するために、トレーニングの形式で変更を実装する方法がまだ見つかっていませんが、そのツールはまさに必要なものだと思います。

jTessBoxEditor を使用すると、写真の OCR がどのように行われるかを確認でき、編集することもできますが、トレーニングの実装方法がまだわかりません (フォーラムとここでの応答をまだ待っています)。そのため、これ以上お手伝いすることはできません。これが私の理解の限界であり、質問は 2 年前のものであり、セットアップがすでに古くなっている可能性が高いため、誰も回答しないと思います。tesseract-ocr 4.* を試していますが、新しいバージョンでの指導は大きく変わりましたが、ツールも進化しているため、jTessBoxEditor で問題は解決できますが、実装方法がわからないため、これは実際には回答ではなく、部分的な回答にすぎません。

ほんの少しでもお役に立てれば幸いです。

スペルや文法の誤り検出によって追加された波線を無視するように tesseract をトレーニングするにはどうすればよいですか?

答え1

関連情報