Как скопировать эту цитату из PDF?

Как скопировать эту цитату из PDF?

Возможный дубликат:
В PDF-файле при копировании и вставке текст искажается

Я читаюPDF-копиястатьи Джерома Х. Фридмана «Интеллектуальный анализ данных и статистика: в чем связь?» с помощью Google Chrome.

Он содержит забавную цитату, которую я хочу скопировать и вставить в свой блог.

Я использовал мышь, чтобы выделить текст цитаты и нажал CTRL+, Cчтобы скопировать текст. Документ выглядит так:

Выделенная цитата из статьи Джерома.

Когда я вставляю текст в Блокнот, Stack Overflow или куда-либо еще, получается тарабарщина в стиле Wingdings:

➣✍❺❼⑤➭✸❸❊➁❥❸❊⑥▼❽❾❸✘➎✳❸❾②❘➊➥❸❊❸❊⑥❦⑨❘②③✇▲➆ ②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥▼⑨❏✇➄⑥▼❺➌❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁❷⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②③⑨✘⑤⑥☎②❥➇⑦⑤⑩⑨ ➔❸❊➅⑩❺➌⑨❹❸❊❸❊➍P⑨①②❥❻ ➎✳❸❏②❥➇▼✇▲②➟➊❚➇⑦❸❊⑥✆✇P⑨❘②③✇▲②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄ ⑥❦➇▼✇➀⑨↔✇➄⑥❦⑤⑩❺❼❸✶✇♣➇⑦❸❷❻➀➁↔⑨❹➇⑦❸❷➊❚➁❥⑤②❥❸✶⑨ ✇❨➂▼✇➄➂✳❸❊➁✶Þ⑦✇♣❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁➟⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②↔⑨❘②③✇➄➁❹②③⑨❚✇♣❽❾❻➀➍♣➂▼✇➄⑥☛➧➀➏

Вместо этого текст должен выглядеть так:

Разница между статистиками и специалистами по информатике в этой области, по-видимому, заключается в том, что когда у статистика возникает идея, он или она пишет статью; специалист по информатике основывает компанию.

Мне пришлось набрать этот текст вручную. Это осуществимо для такой маленькой цитаты, но как мне на самом деле скопировать то, что я вижу?

Что-то необычное в PDF-файле, браузере, плагине или в какой-то комбинации этих трех факторов?

решение1

Самый надежный способ сделать это — использовать OCR.

Но как грязное и быстрое решение вы можете использовать GoogleБыстрый просмотризрезультат поискадля вашей ссылки, в Быстром просмотре используйте опциюВид > Обычный HTML.

Он все еще содержит искаженный текст и довольнонечитаемоно большой объем текста правильный и копируемый. Здесь работает поиск, поэтому вы можете использовать его для поиска целевого текста и копирования его без искажений.


Подробный пример здесь:
Результаты поиска Google по URL включают ссылку быстрого просмотра.
Затем используйте опцию «Просмотр».Обычный HTML.
Быстрый просмотр позволяет просматривать документ в формате HTML.
В GoogleHTML-версия, вы можете выполнить поиск и выбрать эквивалентный текст следующим образом:
Воспользуйтесь поиском в HTML-версии, чтобы найти и выбрать соответствующую цитату.
Вставка в Блокнот дает следующий результат:

Разница между статистиками и специалистами по информатике в этой области, по-видимому, заключается в том, что когда у статистика возникает идея, он или она пишет статью; специалист по информатике основывает компанию.

Не совсем так, как показано, но достаточно близко, чтобы с этим можно было работать.

решение2

Вам придется удалить поврежденный текст, который уже связан с PDF, прежде чем вы сможете повторно распознать его. Самый простой способ сделать это — сохранить его в формате TIFF, затем открыть его в Acrobat и повторно распознать его. Когда я это сделал, это сработало для меня.

решение3

Похоже на PDF с неправильной кодировкой. Смотрите следующие темы:

Попробуйте распечатать PDF-файл с помощьюМилыйPDF, а затем посмотрите, стал ли полученный PDF-файл лучше.

Связанный контент