Как скопировать текст из PDF-файла без потери форматирования?

Как скопировать текст из PDF-файла без потери форматирования?

Когда я копирую текст из PDF-файла в текстовый редактор, он искажается различными способами. Форматирование, например, жирный шрифт и курсив, теряется; мягкие переносы строк внутри абзаца текста преобразуются в жесткие переносы строк; тире для переноса слов на две строки сохраняются, даже когда их не должно быть; а одинарные и двойные кавычки заменяются знаками ?.

В идеале я хотел бы иметь возможность копировать текст из PDF-файла и преобразовывать форматирование в HTML-коды, «умные кавычки» преобразовывать в « и ', а переносы строк делать правильно. Есть ли способ это сделать?

решение1

Во-первых, вы должны понять, что такое PDF. PDF-файлы созданы для имитации печатной страницы, и они созданытолькокак выходной формат, а не входной. PDF-файл по сути представляет собой карту, содержащую точное расположение символов (отдельных букв или знаков препинания и т. д.) или изображений.В большинстве случаев, PDF даже не хранит информацию о том, где находитсясловозаканчивается и начинается другой, не говоря уже о таких вещах, как мягкие и жесткие разрывы в окончаниях абзацев.

(Некоторые недавние PDF-файлы действительно хранят некоторую информацию об этом, но это новая технология, и вам повезет, если вы найдете такие PDF-файлы. Даже если вы их найдете, ваш просмотрщик PDF-файлов может не знать об этом.)

В любом случае, это зависит от вашего программного обеспечения, чтобы реализовать своего рода "искусственный интеллект", чтобы извлечь просто из расположения отдельных символов, что является словом, что является абзацем и т. д. Разное программное обеспечение будет делать это лучше, чем другое, и это также будет зависеть от того, как был создан PDF. В любом случае, вы должныникогдаОжидайте идеальных результатов. Наличие выходного PDF-файла не то же самое, что наличие исходного документа. Гораздо лучше попытаться получить его, если вы можете.

Стандартное решение вашей проблемы — использовать Adobe Acrobat Professional (дорогой, а не бесплатный ридер) для конвертации PDF в HTML. Даже это не даст идеальных результатов.

Существует бесплатное программное обеспечение, которое можно использовать для извлечения текста из PDF-файлов с сохранением части форматирования, но, опять же, не ждите идеальных результатов. См., например,calibre (который может конвертировать в формат RTF),pdftohtml/pdfreflowилиТекстовый процессор AbiWord(со всеми включенными плагинами импорта/экспорта). Также есть плагин импорта PDF для OpenOffice.

Но, пожалуйста, не ждите совершенства ни в одном из этих результатов. Вы идете против течения. PDF просто не предназначен как редактируемый формат ввода.

решение2

Другой вариант — загрузить и начать использовать бесплатный просмотрщик PDF, Foxit (он хорош). Затем вы можете «Сохранить как» и выбрать .txt, чтобы преобразовать его в текстовый файл. Это сохранит все форматирование. Не знаю, можно ли сделать то же самое в Adobe, потому что я перестал им пользоваться некоторое время назад, когда перешел на Foxit.

решение3

Есть очень хороший онлайн-инструмент, который называетсяСей-да. Он занимается расширенной обработкой PDF. Не нужно скачивать программное обеспечение. Поскольку этоновыйонлайн-инструмент, в настоящее время он все еще находится в стадии бета-тестирования. Он позволяет извлекать текст из PDF, а также предоставляет множество других функций PDF

http://www.sejda.com/

Краткий видеообзор функций сейды был сделан 14 ноября 2012 года компанией Revision 3, его можно найти здесь:

http://revision3.com/tzdaily/sejda-online-pdf

решение4

Для этого можно использовать Adobe Acrobat Pro.

Для таблиц: В Acrobat 9/10 была функция выбора таблиц. В Acrobat X можно просто нажать Сохранить как > Электронная таблица > Excel. Он даже объединяет страницы в одну длинную электронную таблицу. Потрясающая функция.

Для текста: Аналогичная функция существует для экспорта в MS Word. Сохранить как > Word > Word Doc.

Источники:

Связанный контент