
저는 스크린샷을 포함한 다양한 이미지 유형에서 텍스트를 감지하기 위해 tesseract를 사용하고 있습니다. 아래 예와 같이 맞춤법 및 문법 경고에 대한 물결 모양의 빨간색과 파란색 밑줄로 인해 혼란스러워지고 있습니다. 결국 문자가 없거나 혼란스러운 내용을 받게 됩니다.
나는 imagemagick 전처리에서 이러한 줄을 제거하는 방법을 살펴보았지만 어느 정도 성공했지만 이러한 방법은 빨간색이나 파란색의 텍스트를 모두 지워 버리므로 바람직하지 않습니다. 또한 실행하는 데 시간이 오래 걸리고 100,000개 이상을 처리해야 합니다. 하루에 이미지. 아마도 이 줄을 인식하고 삭제하도록 tesseract를 훈련시키는 방법이 있을 것이라고 생각하고 있지만 그것이 어떻게 작동할지는 잘 모르겠습니다.
텍스트를 인식하도록 tesseract를 훈련하는 방법에 대한 튜토리얼을 본 적이 있지만 텍스트가 아닌 것을 인식하도록 훈련하는 방법은 본 적이 없습니다. tesseract를 훈련하거나 Leptonica 설정을 사용하여 이러한 라인을 무시할 수 있는 방법이 있습니까?
누구든지 이 문제를 성공적으로 처리한 경우 알려 주시기 바랍니다. 그렇지 않은 경우 권장되는 접근 방식은 무엇입니까?
답변1
저는 현재 tesseract를 가르치는 방법을 배우려고 노력 중입니다(훈련용 lstm 파일을 만드는 방법에 대해 고민 중입니다). 그러나 훈련된 데이터를 미세 조정할 수 있다는 것을 알고 있습니다. 나는 사용한다jTessBoxEditorOCR 중에 tesseract가 수행하는 실수를 수정하기 위해 훈련 형태로 변경 사항을 구현하는 방법을 찾지 못했지만 그 도구가 바로 당신에게 필요한 것이라고 생각합니다.
jTessBoxEditor를 사용하면 사진에서 OCR이 어떻게 수행되는지 볼 수 있고 편집할 수도 있지만 여전히 교육을 구현하는 방법에 대해 고민하고 있으므로(여전히 포럼과 여기에서 응답을 기다리고 있습니다) 더 이상 도움을 드릴 수 없습니다. 그게 내가 얻은 거리이고 2년 전의 질문이므로 누구도 귀하의 질문에 대답할 것이라고 기대하지 않으므로 귀하의 설정은 이미 구식일 것입니다. 나는 tesseract-ocr 4.*를 시도하고 새 버전에서 가르치는 것이 많이 바뀌었지만 도구도 발전했기 때문에 jTessBoxEditor로 문제를 해결할 수 있지만 구현 방법을 모르기 때문에 이것은 실제로 대답은 아니지만 단지 부분적.
제가 조금이라도 도움이 되었으면 좋겠습니다.