OCR и слой текста в PDF

OCR и слой текста в PDF

Я хочу распознать текст в формате PDF, чтобы сделать его доступным для поиска.

Предположим, у вас есть PDF-документ, созданный с помощью сканера или иным образом состоящий из данных изображения, но не содержащий текстовых данных. Такой PDF-файл не может быть просмотрен с помощью PDF-ридеров или поисковых приложений для настольных компьютеров. pdfocr — это простая утилита, которую я создал, которая берет PDF-файл, затем генерирует новый, в который добавлен текстовый слой, поэтому он доступен для поиска вашим PDF-ридером и может быть проиндексирован вашим поисковым приложением для настольных компьютеров, но остается идентичным при печати.

ОтКак: сделать отсканированные PDF-файлы доступными для поиска (OCR) с помощью pdfocr

В настоящее время программное обеспечение Windows, такое как FreeOCR, создает из PDF-файла только файл TXT, но мне нужен только исходный PDF-файл,поисковый.

решение1

Adobe Acrobat имеет функциональность, на которую вы ссылаетесь. В Acrobat 10/11 функциональность находится в разделе инструментов "Распознавание текста" (см.официальная документация). Та же функциональность была доступна и в более старых версиях, но доступ к ней осуществлялся немного иначе (см.Блог Adobe).

Вы можете выполнить OCR на любой или на всех страницах по отдельности, и после применения OCR PDF-файл будет выглядеть идентично (но затем станет доступным для поиска).

Связанный контент