Estou tentando treinar o Tesseract no Ubuntu 20.04.1 LTS. Baixei o tesseract e as ferramentas de treinamento necessárias.
Para os dados de treinamento, estou usando o jTessBoxEditor. Tenho os arquivos .tiff, mas não consigo criar os arquivos .box. Quando digito o seguinte em meu terminal:
tesseract --psm 6 --oem 3 Liberation_serif.font.exp0.tif Liberation_serif.font.exp0 makebox
Estou tendo o erro a seguir:
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.
Tentei baixar eng.traineddata do git e colá-lo no tessdata.Mas recebi a mesma mensagem de erro.Então mudei TESSDATA_PREFIX várias vezes para apontar tessdata, mas recebi a mesma mensagem de erro novamente. Como faço para resolver isso?
Editar: O executável do tesseract e o código-fonte do tesseract que baixei estão em locais diferentes.
Responder1
Eu baixei o tesseract em dois locais. O local para o qual TESSDATA_PREFIX estava apontando não tinha eng.traineddata. Eu baixei naquele diretório do github e usei cat >> .pam_environment
novamente para fazer TESSDATA_PREFIX apontar esse local.
Efetuei login novamente e agora consigo criar arquivos .box.