
我正在使用 tesseract 來檢測各種圖像類型(包括螢幕截圖)中的文本,它會被拼寫和語法警告的紅色和藍色波浪下劃線混淆,如下例所示。我最終要么沒有收到任何短信,要么收到亂碼。
我已經研究了在imagemagick 預處理中消除這些線條的方法,並取得了一些成功,但是這些方法會擦除任何紅色或藍色的文本,這是不可取的- 而且它們需要很長時間才能運行,而且我需要處理超過100k每天的圖像。我在想也許有一種方法可以訓練超立方體來識別並丟棄這些線條,但我不確定這會如何運作。
我看過有關如何訓練超正方體辨識文字的教程,但我還沒有看到任何如何訓練識別非文字內容的內容。有沒有辦法可以訓練超正方體,或對其使用的 Leptonica 設定進行一些操作,以忽略這些行?
如果有人成功處理了這個問題,請告訴我,否則推薦的方法是什麼?
答案1
我目前正在嘗試學習如何教授 tesseract(我一直專注於如何建立用於訓練的 lstm 檔案),但我知道您可以微調您的訓練資料。我用jTessBoxEditor為了糾正 tesseract 在 OCR 過程中出現的錯誤,我只是還沒有找到一種方法來以培訓形式實施更改,但我認為該工具正是您所需要的。
使用jTessBoxEditor你可以看到你的圖片是如何完成OCR的,你也可以編輯它,但我仍然堅持如何實施培訓(仍在等待論壇和這裡的回复)所以我真的無法提供更多幫助,因為這就是我所取得的進展,我不希望有人回答你的問題,因為它已經有兩年了,所以你的設定可能已經過時了。我正在嘗試tesseract-ocr 4.* ,新版本的教學發生了很大變化,而且工具也不斷發展,所以你的問題可以用jTessBoxEditor 解決,但我不知道如何實現它,所以這並不是真正的答案,而只是一個答案部分的。
我希望我能幫助你,哪怕只是一點點。