Какая программа подходит для создания поисковых файлов в отсканированных PDF-файлах?

Какая программа подходит для создания поисковых файлов в отсканированных PDF-файлах?

Я хотел бы иметь возможность сканировать бумажные документы в файлы PDF и сделать текст доступным для поиска. Я считаю, что программа Tesseract может помочь в этом, но не знаю, с чего начать, и не знаю, какую программу лучше всего использовать.

Удалось ли кому-нибудь успешно создать файлы PDF с возможностью поиска?

решение1

Я могу рекомендовать ocrmypdf, см.https://github.com/ocrmypdf/OCRmyPDF, также упакованный для Ubuntu. Вы можете установить его, запустив:

sudo apt install ocrmypdf

Вы можете использовать его следующим образом:

ocrmypdf -l eng infile.pdf outfile.pdf

Вызов ocrmypdfвыше является простым, который указывает язык документа как английский ( -l eng). Существует много опций вmanстраница; возможно, вы захотите обнаружить их по мере необходимости с течением времени.

Связанный контент