Tesseract OCR: Неподдерживаемый тип изображения

Tesseract OCR: Неподдерживаемый тип изображения

Я преобразовал PDF в TIF-файл, используя следующие команды в терминале

convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif

convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif

Затем я попытался запустить makeboxкоманду,

tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox

что привело к следующей ошибке:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.

И предположив, что это что-то связанное с libtiff, запустил команду tesseract -vи обнаружил (или предположил), что она отсутствует

tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5

Он выдает то же самое, даже если я удаляю и переустанавливаю lib tiff. Не уверен, что я здесь упускаю. Пожалуйста, дайте совет!

brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff

Вывод командыbrew info leptonica здесь

Редактировать №1

Создал этот файл tiff GhostScript, который возвращает ту же ошибку, когда я пытаюсь запустить makeboxкоманду. Может быть, я что-то еще упускаю? Я установил размер шрифта 50+, это нормально?

https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.zip(~4 МБ)

Редактировать №2

Я создал одностраничный tif-файл с помощью GhostScript, но он не работает?

https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.zip(~60 КБ)

решение1

Я думаю, вы следите заПост Майкла Лисснерадля добавления пользовательского шрифта в Tesseract.

Я попробовал то же самое ( convertкоманду) и получил испорченный TIFF, который не удалось открыть ни в одном приложении.

Поэтому я выбрал альтернативу GUI. Я написал свой текст в Scribus (потому что он позволял мне увеличивать интервалы между символами), затем экспортировал его напрямую в формате TIFF изФайл-Экспорт-Сохранить как изображениеменю. Я выбрал разрешение 300 DPI.

Что еще можно попробовать:

  • GIMP открывает PDF-файлы, которые можно сохранить в формате TIFF
  • Ghostscript: gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>(в этом случае он конвертирует все страницы)

С какими еще проблемами вы можете столкнуться:

  • Linux: если вы установили версию Tesseract из репозитория (по крайней мере, в Ubuntu), у вас не будет требуемых исполняемых файлов: unicharset_extractorи mftraining(или они не будут в пути, поскольку пакет долженвключить их).

Связанный контент