Я пытаюсь скопировать текст из PDF-файла, но получаю мусор

Я пытаюсь скопировать текст из PDF-файла, но получаю мусор

Я пытаюсь скопировать текст.из PDF-файла, но я получаю мусор. Я использую Document Reader в Ubuntu, чтобы прочитать документ. Это не то, что он не позволяет мне копировать, просто скопированный текст выглядит так:

RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS    

5XQDVURRW

LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!

$53+HDGHUDVVXPLQJ(WKHUQHW,3Y

GH¿QH$53B5(48(67
$535HTXHVW

GH¿QH$53B5(3/<
$535HSO\

W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH

XBLQWBWSW\SH
3URWRFRO7\SH

XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK

XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK

XBLQWBWRSHU
2SHUDWLRQ&RGH

XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV

XBFKDUVSD>@
6HQGHU,3DGGUHVV

XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV

XBFKDUWSD>@
7DUJHW,3DGGUHVV

Что я могу сделать, чтобы это исправить? Это большой объем данных, и его ввод займет очень много времени.

Кстати, вставленный текст выглядел в gedit (Ubuntu) вот так:

в моей системе (обратите внимание, что при вставке в этот вопрос он выглядит иначе!)

Я чувствую, что это какая-то проблема с кодировкой, но не знаю, как ее исправить.

решение1

Текст, лежащий в основе, искажен. Я думаю, @skub прав, думая, что это может быть сделано намеренно. Один из способов получить текст — экспортировать каждую страницу как изображение (например,.jpgили.png) и затем сканировать изображения с помощьюОРСпрограммное обеспечение. Мне удалось протестировать это на Windows 7 с Adobe Acrobat X; это сработало.

Обновлять:

Если ваш просмотрщик документов имеет похожую функцию, copy with formattingкопирует текст, как и ожидалось. Копая глубже, я могу подтвердить, что встроенные шрифтывсеестьпользовательская кодировка.

Связанный контент