Tesseract OCR: Неподдерживаемый тип изображения

Question

Я думаю, вы следите заПост Майкла Лисснерадля добавления пользовательского шрифта в Tesseract.

Я попробовал то же самое ( convertкоманду) и получил испорченный TIFF, который не удалось открыть ни в одном приложении.

Поэтому я выбрал альтернативу GUI. Я написал свой текст в Scribus (потому что он позволял мне увеличивать интервалы между символами), затем экспортировал его напрямую в формате TIFF изФайл-Экспорт-Сохранить как изображениеменю. Я выбрал разрешение 300 DPI.

Что еще можно попробовать:

GIMP открывает PDF-файлы, которые можно сохранить в формате TIFF
Ghostscript: gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>(в этом случае он конвертирует все страницы)

С какими еще проблемами вы можете столкнуться:

Linux: если вы установили версию Tesseract из репозитория (по крайней мере, в Ubuntu), у вас не будет требуемых исполняемых файлов: unicharset_extractorи mftraining(или они не будут в пути, поскольку пакет долженвключить их).

Answer 1