Tesseract OCR: tipo de imagem não compatível

Question

Eu acho que você está seguindoPostagem de Michael Lissnerpara adicionar fonte personalizada ao Tesseract.

Tentei a mesma coisa (o convertcomando) e acabei com um TIFF quebrado que não pôde ser aberto com nenhum aplicativo.

Então escolhi a alternativa GUI. Escrevi meu texto no Scribus (porque me permitiu aumentar o espaçamento entre os caracteres), depois exportei diretamente como TIFF doArquivo-Exportar-Salvar como imagemcardápio. Eu escolhi uma resolução de 300 DPI.

O que mais você pode tentar:

O GIMP abre PDFs que podem ser salvos como TIFF
Ghostscript: gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>(converte todas as páginas se for o caso)

Que outros problemas você pode encontrar:

Linux: se você instalou a versão repo do Tesseract (pelo menos no Ubuntu) você não terá os executáveis necessários: unicharset_extractore mftraining(ou eles não estão no caminho, porque o pacote deveriaincluí-los).

Answer 1