Я пытаюсь скопировать текст из PDF-файла, но получаю мусор

Question

Текст, лежащий в основе, искажен. Я думаю, @skub прав, думая, что это может быть сделано намеренно. Один из способов получить текст — экспортировать каждую страницу как изображение (например,.jpgили.png) и затем сканировать изображения с помощьюОРСпрограммное обеспечение. Мне удалось протестировать это на Windows 7 с Adobe Acrobat X; это сработало.

Обновлять:

Если ваш просмотрщик документов имеет похожую функцию, copy with formattingкопирует текст, как и ожидалось. Копая глубже, я могу подтвердить, что встроенные шрифтывсеестьпользовательская кодировка.

Answer 1

Текст, лежащий в основе, искажен. Я думаю, @skub прав, думая, что это может быть сделано намеренно. Один из способов получить текст — экспортировать каждую страницу как изображение (например,.jpgили.png) и затем сканировать изображения с помощьюОРСпрограммное обеспечение. Мне удалось протестировать это на Windows 7 с Adobe Acrobat X; это сработало.

Обновлять:

Если ваш просмотрщик документов имеет похожую функцию, copy with formattingкопирует текст, как и ожидалось. Копая глубже, я могу подтвердить, что встроенные шрифтывсеестьпользовательская кодировка.

Я пытаюсь скопировать текст из PDF-файла, но получаю мусор

решение1

Обновлять:

Связанный контент