Tesseract OCR: tipo de imagen no compatible

Tesseract OCR: tipo de imagen no compatible

Convertí el archivo PDF a TIF usando los siguientes comandos en la terminal

convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif

convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif

Luego intenté ejecutar makeboxel comando,

tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox

lo que produjo el siguiente error:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.

Y suponiendo que sea algo relacionado con el comando libtiff, ejecuté el comando tesseract -vy encontré (o supuse) que faltaba

tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5

Produce lo mismo incluso si desinstalo y reinstalo lib tiff. No estoy seguro de lo que me estoy perdiendo aquí. ¡Por favor aconséjame!

brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff

Salida del comandobrew info leptonica aquí

Edición #1

Produje este archivo tiff GhostScriptque devuelve el mismo error cuando intento ejecutar makeboxel comando. ¿Quizás hay algo más que me estoy perdiendo? Configuré 50+ como tamaño de fuente, ¿está bien?

https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.zip(~4MB)

Edición #2

Creé una página tif usando GhostScript, ¿incluso si no funciona?

https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.zip(~60 KB)

Respuesta1

Supongo que estás siguiendoLa publicación de Michael Lissnerpara agregar una fuente personalizada a Tesseract.

Intenté lo mismo (el convertcomando) y obtuve un TIFF roto que no se podía abrir con ninguna aplicación.

Entonces elegí la alternativa GUI. Escribí mi texto en Scribus (porque me permitía aumentar el espacio entre caracteres) y luego lo exporté directamente como TIFF desde elArchivo-Exportar-Guardar como imagenmenú. Elegí una resolución de 300 DPI.

¿Qué más puedes probar?

  • GIMP abre archivos PDF que se pueden guardar como TIFF
  • Ghostscript: gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>(convierte todas las páginas si es el caso)

Qué otros problemas puede encontrar:

  • Linux: si instaló la versión repositorio de Tesseract (al menos en Ubuntu), no tendrá los ejecutables requeridos: unicharset_extractory mftraining(o no están en la ruta, porque el paquete deberíaincluirlos).

información relacionada