
Estou usando o tesseract para detectar texto em uma variedade de tipos de imagens, incluindo capturas de tela. Ele fica confuso com os sublinhados ondulados em vermelho e azul para avisos ortográficos e gramaticais, como no exemplo abaixo. Acabo recebendo nenhum texto ou uma bagunça distorcida.
Eu procurei maneiras de eliminar essas linhas no pré-processamento do imagemagick com algum sucesso, mas esses métodos eliminam qualquer texto vermelho ou azul, o que é indesejável - além disso, eles demoram muito para serem executados e preciso processar mais de 100k imagens por dia. Estou pensando que talvez exista uma maneira de treinar o tesseract para reconhecer e descartar essas linhas, mas não tenho certeza de como isso funcionaria.
Já vi tutoriais sobre como treinar o tesseract para reconhecer texto, mas não vi nada sobre como treinar para reconhecer algo que não é texto. Existe uma maneira de treinar o tesseract ou fazer algo com a configuração do Leptonica que ele usa para ignorar essas linhas?
Se alguém tiver lidado com isso com sucesso, por favor me avise, caso contrário, qual seria a abordagem recomendada?
Responder1
Atualmente, estou tentando aprender como ensinar o tesseract (estou preso em como criar arquivos lstm para treinamento), mas sei que você pode ajustar seus dados treinados. eu usoEditor jTessBoxpara corrigir os erros que o tesseract faz durante o OCR, só não encontrei uma maneira de implementar as mudanças em uma forma de treinamento, mas essa ferramenta é exatamente o que você precisa, eu acho.
Usando o jTessBoxEditor você pode ver como é feito o OCR na sua foto, também pode editá-la, mas ainda não sei como implementar o treinamento (ainda aguardando resposta no fórum e também aqui) então não posso ajudar mais, porque foi o quão longe cheguei e não esperaria que ninguém respondesse à sua pergunta, pois ela tem 2 anos, então sua configuração provavelmente já está desatualizada. Estou tentando o tesseract-ocr 4.* e o ensino na nova versão mudou muito, mas as ferramentas também evoluíram, então seu problema é solucionável com o jTessBoxEditor, mas não sei como implementá-lo, então isso não é realmente uma resposta, mas apenas um parcial.
Espero poder ajudá-lo, mesmo que só um pouquinho.