¿Cómo entreno a Tesseract para que ignore las líneas onduladas agregadas por la detección de errores ortográficos y gramaticales?

Question

Actualmente estoy tratando de aprender a enseñar Tesseract (estoy atascado en cómo crear archivos lstm para entrenamiento), pero sé que puedes ajustar tus datos entrenados. yo suelojTessBoxEditorPara corregir los errores que comete Tesseract durante el OCR, simplemente no he encontrado una manera de implementar los cambios en una forma de capacitación, pero creo que esa herramienta es justo lo que necesita.

Usando jTessBoxEditor puedes ver cómo se realiza el OCR en tu imagen, también puedes editarla, pero todavía estoy atascado en cómo implementar la capacitación (aún estoy esperando respuesta en el foro y también aquí), así que realmente no puedo ayudar más, porque Eso es lo lejos que llegué y no esperaría que nadie respondiera a su pregunta, ya que tiene 2 años, por lo que su configuración probablemente ya esté desactualizada. Estoy probando tesseract-ocr 4.* y la enseñanza en la nueva versión cambió mucho, pero también las herramientas evolucionaron, por lo que su problema es solucionable con jTessBoxEditor, pero no sé cómo implementarlo, por lo que esta no es realmente una respuesta sino solo una parcial.

Espero poder ayudarte aunque sea un poquito.

Answer 1

Actualmente estoy tratando de aprender a enseñar Tesseract (estoy atascado en cómo crear archivos lstm para entrenamiento), pero sé que puedes ajustar tus datos entrenados. yo suelojTessBoxEditorPara corregir los errores que comete Tesseract durante el OCR, simplemente no he encontrado una manera de implementar los cambios en una forma de capacitación, pero creo que esa herramienta es justo lo que necesita.

Usando jTessBoxEditor puedes ver cómo se realiza el OCR en tu imagen, también puedes editarla, pero todavía estoy atascado en cómo implementar la capacitación (aún estoy esperando respuesta en el foro y también aquí), así que realmente no puedo ayudar más, porque Eso es lo lejos que llegué y no esperaría que nadie respondiera a su pregunta, ya que tiene 2 años, por lo que su configuración probablemente ya esté desactualizada. Estoy probando tesseract-ocr 4.* y la enseñanza en la nueva versión cambió mucho, pero también las herramientas evolucionaron, por lo que su problema es solucionable con jTessBoxEditor, pero no sé cómo implementarlo, por lo que esta no es realmente una respuesta sino solo una parcial.

Espero poder ayudarte aunque sea un poquito.

¿Cómo entreno a Tesseract para que ignore las líneas onduladas agregadas por la detección de errores ortográficos y gramaticales?

Respuesta1

información relacionada