Я пытаюсь обучить Tesseract в Ubuntu 20.04.1 LTS. Я скачал Tesseract и необходимые инструменты обучения.
Для обучающих данных я использую jTessBoxEditor. У меня есть файлы .tiff, но я не могу создать файлы .box. Когда я ввожу следующее в своем терминале:
tesseract --psm 6 --oem 3 Liberation_serif.font.exp0.tif Liberation_serif.font.exp0 makebox
Я получаю следующую ошибку:
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.
Я пробовал скачать eng.traineddata из git и вставить его в tessdata. Но я получил то же самое сообщение об ошибке. Затем я несколько раз изменил TESSDATA_PREFIX, чтобы он указывал на tessdata, но я снова получил то же самое сообщение об ошибке. Как мне решить эту проблему?
Редактировать: Исполняемый файл Tesseract и исходный код Tesseract, которые я скачал, находятся в разных местах.
решение1
Я скачал tesseract в двух местах. В месте, на которое указывал TESSDATA_PREFIX, не было eng.traineddata. Я скачал его в этот каталог с github и cat >> .pam_environment
снова использовал, чтобы TESSDATA_PREFIX указывал на это место.
Я снова вошел в систему и теперь могу создавать файлы .box.