Как извлечь текст из PDF-файла на основе изображения с помощью Cuneiform в терминале

Как извлечь текст из PDF-файла на основе изображения с помощью Cuneiform в терминале

клинопись -l eng -f текст -o outocr.txt input.pdf

Приведенная выше команда при запуске в терминале выводит только текст титульного листа моего PDF в файл outocr.txt. Что мне сделать, чтобы он распознал весь текст в 120-страничном PDF? Я использую Fedora Linux 25 (x86_64).

решение1

В этом посте представлен пример скрипта для чтения множества отдельных страниц и создания многостраничного PDF. Cuneiform сам по себе не создает многостраничные документы. Как извлечь текст из PDF-файла с помощью OCR на Linux?

Связанный контент