![Я пытаюсь скопировать текст из PDF-файла, но получаю мусор](https://rvso.com/image/1303092/%D0%AF%20%D0%BF%D1%8B%D1%82%D0%B0%D1%8E%D1%81%D1%8C%20%D1%81%D0%BA%D0%BE%D0%BF%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D1%82%D1%8C%20%D1%82%D0%B5%D0%BA%D1%81%D1%82%20%D0%B8%D0%B7%20PDF-%D1%84%D0%B0%D0%B9%D0%BB%D0%B0%2C%20%D0%BD%D0%BE%20%D0%BF%D0%BE%D0%BB%D1%83%D1%87%D0%B0%D1%8E%20%D0%BC%D1%83%D1%81%D0%BE%D1%80.png)
Я пытаюсь скопировать текст.из PDF-файла, но я получаю мусор. Я использую Document Reader в Ubuntu, чтобы прочитать документ. Это не то, что он не позволяет мне копировать, просто скопированный текст выглядит так:
RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS
5XQDVURRW
LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!
$53+HDGHUDVVXPLQJ(WKHUQHW,3Y
GH¿QH$53B5(48(67
$535HTXHVW
GH¿QH$53B5(3/<
$535HSO\
W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH
XBLQWBWSW\SH
3URWRFRO7\SH
XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK
XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK
XBLQWBWRSHU
2SHUDWLRQ&RGH
XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV
XBFKDUVSD>@
6HQGHU,3DGGUHVV
XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV
XBFKDUWSD>@
7DUJHW,3DGGUHVV
Что я могу сделать, чтобы это исправить? Это большой объем данных, и его ввод займет очень много времени.
Кстати, вставленный текст выглядел в gedit (Ubuntu) вот так:
(обратите внимание, что при вставке в этот вопрос он выглядит иначе!)
Я чувствую, что это какая-то проблема с кодировкой, но не знаю, как ее исправить.
решение1
Текст, лежащий в основе, искажен. Я думаю, @skub прав, думая, что это может быть сделано намеренно. Один из способов получить текст — экспортировать каждую страницу как изображение (например,.jpgили.png) и затем сканировать изображения с помощьюОРСпрограммное обеспечение. Мне удалось протестировать это на Windows 7 с Adobe Acrobat X; это сработало.
Обновлять:
Если ваш просмотрщик документов имеет похожую функцию, copy with formatting
копирует текст, как и ожидалось. Копая глубже, я могу подтвердить, что встроенные шрифтывсеестьпользовательская кодировка.