Tesseract OCR: tipo de imagem não compatível

Tesseract OCR: tipo de imagem não compatível

Converti o arquivo PDF em TIF usando os seguintes comandos no terminal

convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif

convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif

Então tentei executar makeboxo comando,

tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox

que produziu o seguinte erro:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.

E supondo que seja algo relacionado ao comando libtiff, executei o comando tesseract -ve descobri (ou adivinhei) que estava faltando

tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5

Produz a mesma coisa mesmo se eu desinstalar e reinstalar o lib tiff. Não tenho certeza do que estou perdendo aqui. Conselho por favor!

brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff

Saída do comandobrew info leptonica aqui

Editar #1

Produzi este arquivo tiff GhostScriptque retorna o mesmo erro quando tento executar makeboxo comando. Talvez haja algo mais que esteja faltando? Eu defini cerca de 50+ como tamanho da fonte, tudo bem?

https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.zip(~4 MB)

Editar #2

Criei uma página tif usando GhostScript, mas não está funcionando ??

https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.zip(~60KB)

Responder1

Eu acho que você está seguindoPostagem de Michael Lissnerpara adicionar fonte personalizada ao Tesseract.

Tentei a mesma coisa (o convertcomando) e acabei com um TIFF quebrado que não pôde ser aberto com nenhum aplicativo.

Então escolhi a alternativa GUI. Escrevi meu texto no Scribus (porque me permitiu aumentar o espaçamento entre os caracteres), depois exportei diretamente como TIFF doArquivo-Exportar-Salvar como imagemcardápio. Eu escolhi uma resolução de 300 DPI.

O que mais você pode tentar:

  • O GIMP abre PDFs que podem ser salvos como TIFF
  • Ghostscript: gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>(converte todas as páginas se for o caso)

Que outros problemas você pode encontrar:

  • Linux: se você instalou a versão repo do Tesseract (pelo menos no Ubuntu) você não terá os executáveis ​​necessários: unicharset_extractore mftraining(ou eles não estão no caminho, porque o pacote deveriaincluí-los).

informação relacionada