¿Cómo entreno a Tesseract para que ignore las líneas onduladas agregadas por la detección de errores ortográficos y gramaticales?

¿Cómo entreno a Tesseract para que ignore las líneas onduladas agregadas por la detección de errores ortográficos y gramaticales?

Estoy usando tesseract para detectar texto en una variedad de tipos de imágenes, incluidas capturas de pantalla, y se confunde con los subrayados ondulados en rojo y azul para las advertencias ortográficas y gramaticales, como en el siguiente ejemplo. Termino sin recibir ningún mensaje de texto o con un lío confuso.

ingrese la descripción de la imagen aquí

He buscado formas de eliminar estas líneas en el preprocesamiento de Imagemagick con cierto éxito, pero estos métodos eliminan cualquier texto rojo o azul, lo cual no es deseable; además, tardan mucho en ejecutarse y necesito procesar más de 100k. imágenes por día. Estoy pensando que tal vez haya una manera de entrenar a Tesseract para que reconozca y descarte estas líneas, pero no estoy seguro de cómo funcionaría.

He visto tutoriales sobre cómo entrenar Tesseract para reconocer texto, pero no he visto nada sobre cómo entrenar para reconocer algo que no es texto. ¿Hay alguna manera de entrenar Tesseract, o hacer algo con la configuración de Leptonica que utiliza, para ignorar estas líneas?

Si alguien ha solucionado esto con éxito, hágamelo saber; de lo contrario, ¿cuál sería el enfoque recomendado?

Respuesta1

Actualmente estoy tratando de aprender a enseñar Tesseract (estoy atascado en cómo crear archivos lstm para entrenamiento), pero sé que puedes ajustar tus datos entrenados. yo suelojTessBoxEditorPara corregir los errores que comete Tesseract durante el OCR, simplemente no he encontrado una manera de implementar los cambios en una forma de capacitación, pero creo que esa herramienta es justo lo que necesita.

Usando jTessBoxEditor puedes ver cómo se realiza el OCR en tu imagen, también puedes editarla, pero todavía estoy atascado en cómo implementar la capacitación (aún estoy esperando respuesta en el foro y también aquí), así que realmente no puedo ayudar más, porque Eso es lo lejos que llegué y no esperaría que nadie respondiera a su pregunta, ya que tiene 2 años, por lo que su configuración probablemente ya esté desactualizada. Estoy probando tesseract-ocr 4.* y la enseñanza en la nueva versión cambió mucho, pero también las herramientas evolucionaron, por lo que su problema es solucionable con jTessBoxEditor, pero no sé cómo implementarlo, por lo que esta no es realmente una respuesta sino solo una parcial.

Espero poder ayudarte aunque sea un poquito.

información relacionada