
Возможный дубликат:
В PDF-файле при копировании и вставке текст искажается
Я читаюPDF-копиястатьи Джерома Х. Фридмана «Интеллектуальный анализ данных и статистика: в чем связь?» с помощью Google Chrome.
Он содержит забавную цитату, которую я хочу скопировать и вставить в свой блог.
Я использовал мышь, чтобы выделить текст цитаты и нажал CTRL+, Cчтобы скопировать текст. Документ выглядит так:
Когда я вставляю текст в Блокнот, Stack Overflow или куда-либо еще, получается тарабарщина в стиле Wingdings:
➣✍❺❼⑤➭✸❸❊➁❥❸❊⑥▼❽❾❸✘➎✳❸❾②❘➊➥❸❊❸❊⑥❦⑨❘②③✇▲➆ ②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥▼⑨❏✇➄⑥▼❺➌❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁❷⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②③⑨✘⑤⑥☎②❥➇⑦⑤⑩⑨ ➔❸❊➅⑩❺➌⑨❹❸❊❸❊➍P⑨①②❥❻ ➎✳❸❏②❥➇▼✇▲②➟➊❚➇⑦❸❊⑥✆✇P⑨❘②③✇▲②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄ ⑥❦➇▼✇➀⑨↔✇➄⑥❦⑤⑩❺❼❸✶✇♣➇⑦❸❷❻➀➁↔⑨❹➇⑦❸❷➊❚➁❥⑤②❥❸✶⑨ ✇❨➂▼✇➄➂✳❸❊➁✶Þ⑦✇♣❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁➟⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②↔⑨❘②③✇➄➁❹②③⑨❚✇♣❽❾❻➀➍♣➂▼✇➄⑥☛➧➀➏
Вместо этого текст должен выглядеть так:
Разница между статистиками и специалистами по информатике в этой области, по-видимому, заключается в том, что когда у статистика возникает идея, он или она пишет статью; специалист по информатике основывает компанию.
Мне пришлось набрать этот текст вручную. Это осуществимо для такой маленькой цитаты, но как мне на самом деле скопировать то, что я вижу?
Что-то необычное в PDF-файле, браузере, плагине или в какой-то комбинации этих трех факторов?
решение1
Самый надежный способ сделать это — использовать OCR.
Но как грязное и быстрое решение вы можете использовать GoogleБыстрый просмотризрезультат поискадля вашей ссылки, в Быстром просмотре используйте опциюВид > Обычный HTML.
Он все еще содержит искаженный текст и довольнонечитаемоно большой объем текста правильный и копируемый. Здесь работает поиск, поэтому вы можете использовать его для поиска целевого текста и копирования его без искажений.
Подробный пример здесь:

Затем используйте опцию «Просмотр».Обычный HTML.

В GoogleHTML-версия, вы можете выполнить поиск и выбрать эквивалентный текст следующим образом:

Вставка в Блокнот дает следующий результат:
Разница между статистиками и специалистами по информатике в этой области, по-видимому, заключается в том, что когда у статистика возникает идея, он или она пишет статью; специалист по информатике основывает компанию.
Не совсем так, как показано, но достаточно близко, чтобы с этим можно было работать.
решение2
Вам придется удалить поврежденный текст, который уже связан с PDF, прежде чем вы сможете повторно распознать его. Самый простой способ сделать это — сохранить его в формате TIFF, затем открыть его в Acrobat и повторно распознать его. Когда я это сделал, это сработало для меня.
решение3
Похоже на PDF с неправильной кодировкой. Смотрите следующие темы:
Попробуйте распечатать PDF-файл с помощьюМилыйPDF, а затем посмотрите, стал ли полученный PDF-файл лучше.