Можно просматривать/читать содержимое PDF-файла, но нельзя извлекать текст

Можно просматривать/читать содержимое PDF-файла, но нельзя извлекать текст

Я загрузил файл PDF, который я могу просматривать, печатать, изменять... но не могу сделать простую копию текста. После краткого поиска я не смог найти, как это было достигнуто. Я пробовал с приложением предварительного просмотра macOS и просмотрщиком PDF Chrome. В приложении предварительного просмотра я получаю ?и в Chrome я получаю пустое пространство

На изображении ниже вы видите 8, но когда я пытаюсь скопировать его, я получаю пустое пространство или, как ?мне кажется, это способ macOS сказать, что она не может прочитать эту кодировку?

введите описание изображения здесь

решение1

Это ограничение (побочный эффект) при создании PDF-файла из .jpg.

Нет никакого возможного способа исправить это, кроме как извлечь текст с помощью программного обеспечения OCR. Если это не работает из pdf напрямую, сделайте .jpg-распечатку и используйте ее.

решение2

Вы можете использовать этот инструмент для преобразования PDF в текст:pdf2text-ocr

Затем вы сможете копировать, искать и т. д. Файлы конвертируются локально в браузере с помощьюОРСи никогда не загружаются на внешние серверы. Это бесплатно и с открытым исходным кодом.

Раскрытие информации:Я автор pdf2text-ocr. Я создал его, чтобы помочь другу, у которого на работе возникла та же проблема.

Связанный контент