Я преобразовал PDF в TIF-файл, используя следующие команды в терминале
convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif
convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif
Затем я попытался запустить makebox
команду,
tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox
что привело к следующей ошибке:
Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.
И предположив, что это что-то связанное с libtiff
, запустил команду tesseract -v
и обнаружил (или предположил), что она отсутствует
tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5
Он выдает то же самое, даже если я удаляю и переустанавливаю lib tiff. Не уверен, что я здесь упускаю. Пожалуйста, дайте совет!
brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff
Вывод командыbrew info leptonica
Редактировать №1
Создал этот файл tiff GhostScript
, который возвращает ту же ошибку, когда я пытаюсь запустить makebox
команду. Может быть, я что-то еще упускаю? Я установил размер шрифта 50+, это нормально?
https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.zip(~4 МБ)
Редактировать №2
Я создал одностраничный tif-файл с помощью GhostScript
, но он не работает?
https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.zip(~60 КБ)
решение1
Я думаю, вы следите заПост Майкла Лисснерадля добавления пользовательского шрифта в Tesseract.
Я попробовал то же самое ( convert
команду) и получил испорченный TIFF, который не удалось открыть ни в одном приложении.
Поэтому я выбрал альтернативу GUI. Я написал свой текст в Scribus (потому что он позволял мне увеличивать интервалы между символами), затем экспортировал его напрямую в формате TIFF изФайл-Экспорт-Сохранить как изображениеменю. Я выбрал разрешение 300 DPI.
Что еще можно попробовать:
- GIMP открывает PDF-файлы, которые можно сохранить в формате TIFF
- Ghostscript:
gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>
(в этом случае он конвертирует все страницы)
С какими еще проблемами вы можете столкнуться:
- Linux: если вы установили версию Tesseract из репозитория (по крайней мере, в Ubuntu), у вас не будет требуемых исполняемых файлов:
unicharset_extractor
иmftraining
(или они не будут в пути, поскольку пакет долженвключить их).