Я хотел бы иметь возможность сканировать бумажные документы в файлы PDF и сделать текст доступным для поиска. Я считаю, что программа Tesseract может помочь в этом, но не знаю, с чего начать, и не знаю, какую программу лучше всего использовать.
Удалось ли кому-нибудь успешно создать файлы PDF с возможностью поиска?
решение1
Я могу рекомендовать ocrmypdf
, см.https://github.com/ocrmypdf/OCRmyPDF, также упакованный для Ubuntu. Вы можете установить его, запустив:
sudo apt install ocrmypdf
Вы можете использовать его следующим образом:
ocrmypdf -l eng infile.pdf outfile.pdf
Вызов ocrmypdf
выше является простым, который указывает язык документа как английский ( -l eng
). Существует много опций вman
страница; возможно, вы захотите обнаружить их по мере необходимости с течением времени.