клинопись -l eng -f текст -o outocr.txt input.pdf
Приведенная выше команда при запуске в терминале выводит только текст титульного листа моего PDF в файл outocr.txt. Что мне сделать, чтобы он распознал весь текст в 120-страничном PDF? Я использую Fedora Linux 25 (x86_64).
решение1
В этом посте представлен пример скрипта для чтения множества отдельных страниц и создания многостраничного PDF. Cuneiform сам по себе не создает многостраничные документы. Как извлечь текст из PDF-файла с помощью OCR на Linux?