
Converti o arquivo PDF em TIF usando os seguintes comandos no terminal
convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif
convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif
Então tentei executar makebox
o comando,
tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox
que produziu o seguinte erro:
Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.
E supondo que seja algo relacionado ao comando libtiff
, executei o comando tesseract -v
e descobri (ou adivinhei) que estava faltando
tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5
Produz a mesma coisa mesmo se eu desinstalar e reinstalar o lib tiff. Não tenho certeza do que estou perdendo aqui. Conselho por favor!
brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff
Saída do comandobrew info leptonica
Editar #1
Produzi este arquivo tiff GhostScript
que retorna o mesmo erro quando tento executar makebox
o comando. Talvez haja algo mais que esteja faltando? Eu defini cerca de 50+ como tamanho da fonte, tudo bem?
https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.zip(~4 MB)
Editar #2
Criei uma página tif usando GhostScript
, mas não está funcionando ??
https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.zip(~60KB)
Responder1
Eu acho que você está seguindoPostagem de Michael Lissnerpara adicionar fonte personalizada ao Tesseract.
Tentei a mesma coisa (o convert
comando) e acabei com um TIFF quebrado que não pôde ser aberto com nenhum aplicativo.
Então escolhi a alternativa GUI. Escrevi meu texto no Scribus (porque me permitiu aumentar o espaçamento entre os caracteres), depois exportei diretamente como TIFF doArquivo-Exportar-Salvar como imagemcardápio. Eu escolhi uma resolução de 300 DPI.
O que mais você pode tentar:
- O GIMP abre PDFs que podem ser salvos como TIFF
- Ghostscript:
gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>
(converte todas as páginas se for o caso)
Que outros problemas você pode encontrar:
- Linux: se você instalou a versão repo do Tesseract (pelo menos no Ubuntu) você não terá os executáveis necessários:
unicharset_extractor
emftraining
(ou eles não estão no caminho, porque o pacote deveriaincluí-los).