
Convertí el archivo PDF a TIF usando los siguientes comandos en la terminal
convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif
convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif
Luego intenté ejecutar makebox
el comando,
tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox
lo que produjo el siguiente error:
Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.
Y suponiendo que sea algo relacionado con el comando libtiff
, ejecuté el comando tesseract -v
y encontré (o supuse) que faltaba
tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5
Produce lo mismo incluso si desinstalo y reinstalo lib tiff. No estoy seguro de lo que me estoy perdiendo aquí. ¡Por favor aconséjame!
brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff
Salida del comandobrew info leptonica
Edición #1
Produje este archivo tiff GhostScript
que devuelve el mismo error cuando intento ejecutar makebox
el comando. ¿Quizás hay algo más que me estoy perdiendo? Configuré 50+ como tamaño de fuente, ¿está bien?
https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.zip(~4MB)
Edición #2
Creé una página tif usando GhostScript
, ¿incluso si no funciona?
https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.zip(~60 KB)
Respuesta1
Supongo que estás siguiendoLa publicación de Michael Lissnerpara agregar una fuente personalizada a Tesseract.
Intenté lo mismo (el convert
comando) y obtuve un TIFF roto que no se podía abrir con ninguna aplicación.
Entonces elegí la alternativa GUI. Escribí mi texto en Scribus (porque me permitía aumentar el espacio entre caracteres) y luego lo exporté directamente como TIFF desde elArchivo-Exportar-Guardar como imagenmenú. Elegí una resolución de 300 DPI.
¿Qué más puedes probar?
- GIMP abre archivos PDF que se pueden guardar como TIFF
- Ghostscript:
gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>
(convierte todas las páginas si es el caso)
Qué otros problemas puede encontrar:
- Linux: si instaló la versión repositorio de Tesseract (al menos en Ubuntu), no tendrá los ejecutables requeridos:
unicharset_extractor
ymftraining
(o no están en la ruta, porque el paquete deberíaincluirlos).