No se pueden crear archivos .box - Entrenamiento Tessearct

No se pueden crear archivos .box - Entrenamiento Tessearct

Estoy intentando entrenar Tesseract en Ubuntu 20.04.1 LTS. Descargué Tesseract y las herramientas de capacitación necesarias.

Para los datos de entrenamiento estoy usando jTessBoxEditor. Tengo los archivos .tiff pero no puedo crear los archivos .box. Cuando escribo lo siguiente en mi terminal:

tesseract --psm 6 --oem 3 Liberation_serif.font.exp0.tif Liberation_serif.font.exp0 makebox

Obtuve el siguiente error:

Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.

Intenté descargar eng.traineddata de git y pegarlo en tessdata, pero recibí el mismo mensaje de error. Luego cambié TESSDATA_PREFIX varias veces para que apunte a tessdata, pero recibí el mismo mensaje de error nuevamente. ¿Cómo resuelvo esto?

Editar: El ejecutable de Tesseract y el código fuente de Tesseract que descargué se encuentran en diferentes ubicaciones.

Respuesta1

Descargué tesseract en dos ubicaciones. La ubicación a la que apuntaba TESSDATA_PREFIX no tenía eng.traineddata. Lo descargué en ese directorio de github y lo usé cat >> .pam_environmentnuevamente para hacer que TESSDATA_PREFIX apunte a esa ubicación.

Inicié sesión nuevamente y ahora puedo crear archivos .box.

información relacionada