Как скопировать текст из PDF-файла без потери форматирования?

Question 1

Во-первых, вы должны понять, что такое PDF. PDF-файлы созданы для имитации печатной страницы, и они созданытолькокак выходной формат, а не входной. PDF-файл по сути представляет собой карту, содержащую точное расположение символов (отдельных букв или знаков препинания и т. д.) или изображений.В большинстве случаев, PDF даже не хранит информацию о том, где находитсясловозаканчивается и начинается другой, не говоря уже о таких вещах, как мягкие и жесткие разрывы в окончаниях абзацев.

(Некоторые недавние PDF-файлы действительно хранят некоторую информацию об этом, но это новая технология, и вам повезет, если вы найдете такие PDF-файлы. Даже если вы их найдете, ваш просмотрщик PDF-файлов может не знать об этом.)

В любом случае, это зависит от вашего программного обеспечения, чтобы реализовать своего рода "искусственный интеллект", чтобы извлечь просто из расположения отдельных символов, что является словом, что является абзацем и т. д. Разное программное обеспечение будет делать это лучше, чем другое, и это также будет зависеть от того, как был создан PDF. В любом случае, вы должныникогдаОжидайте идеальных результатов. Наличие выходного PDF-файла не то же самое, что наличие исходного документа. Гораздо лучше попытаться получить его, если вы можете.

Стандартное решение вашей проблемы — использовать Adobe Acrobat Professional (дорогой, а не бесплатный ридер) для конвертации PDF в HTML. Даже это не даст идеальных результатов.

Существует бесплатное программное обеспечение, которое можно использовать для извлечения текста из PDF-файлов с сохранением части форматирования, но, опять же, не ждите идеальных результатов. См., например,calibre (который может конвертировать в формат RTF),pdftohtml/pdfreflowилиТекстовый процессор AbiWord(со всеми включенными плагинами импорта/экспорта). Также есть плагин импорта PDF для OpenOffice.

Но, пожалуйста, не ждите совершенства ни в одном из этих результатов. Вы идете против течения. PDF просто не предназначен как редактируемый формат ввода.

Answer

Во-первых, вы должны понять, что такое PDF. PDF-файлы созданы для имитации печатной страницы, и они созданытолькокак выходной формат, а не входной. PDF-файл по сути представляет собой карту, содержащую точное расположение символов (отдельных букв или знаков препинания и т. д.) или изображений.В большинстве случаев, PDF даже не хранит информацию о том, где находитсясловозаканчивается и начинается другой, не говоря уже о таких вещах, как мягкие и жесткие разрывы в окончаниях абзацев.

(Некоторые недавние PDF-файлы действительно хранят некоторую информацию об этом, но это новая технология, и вам повезет, если вы найдете такие PDF-файлы. Даже если вы их найдете, ваш просмотрщик PDF-файлов может не знать об этом.)

В любом случае, это зависит от вашего программного обеспечения, чтобы реализовать своего рода "искусственный интеллект", чтобы извлечь просто из расположения отдельных символов, что является словом, что является абзацем и т. д. Разное программное обеспечение будет делать это лучше, чем другое, и это также будет зависеть от того, как был создан PDF. В любом случае, вы должныникогдаОжидайте идеальных результатов. Наличие выходного PDF-файла не то же самое, что наличие исходного документа. Гораздо лучше попытаться получить его, если вы можете.

Стандартное решение вашей проблемы — использовать Adobe Acrobat Professional (дорогой, а не бесплатный ридер) для конвертации PDF в HTML. Даже это не даст идеальных результатов.

Существует бесплатное программное обеспечение, которое можно использовать для извлечения текста из PDF-файлов с сохранением части форматирования, но, опять же, не ждите идеальных результатов. См., например,calibre (который может конвертировать в формат RTF),pdftohtml/pdfreflowилиТекстовый процессор AbiWord(со всеми включенными плагинами импорта/экспорта). Также есть плагин импорта PDF для OpenOffice.

Но, пожалуйста, не ждите совершенства ни в одном из этих результатов. Вы идете против течения. PDF просто не предназначен как редактируемый формат ввода.

Question 2

Другой вариант — загрузить и начать использовать бесплатный просмотрщик PDF, Foxit (он хорош). Затем вы можете «Сохранить как» и выбрать .txt, чтобы преобразовать его в текстовый файл. Это сохранит все форматирование. Не знаю, можно ли сделать то же самое в Adobe, потому что я перестал им пользоваться некоторое время назад, когда перешел на Foxit.

Answer

Другой вариант — загрузить и начать использовать бесплатный просмотрщик PDF, Foxit (он хорош). Затем вы можете «Сохранить как» и выбрать .txt, чтобы преобразовать его в текстовый файл. Это сохранит все форматирование. Не знаю, можно ли сделать то же самое в Adobe, потому что я перестал им пользоваться некоторое время назад, когда перешел на Foxit.

Question 3

Есть очень хороший онлайн-инструмент, который называетсяСей-да. Он занимается расширенной обработкой PDF. Не нужно скачивать программное обеспечение. Поскольку этоновыйонлайн-инструмент, в настоящее время он все еще находится в стадии бета-тестирования. Он позволяет извлекать текст из PDF, а также предоставляет множество других функций PDF

http://www.sejda.com/

Краткий видеообзор функций сейды был сделан 14 ноября 2012 года компанией Revision 3, его можно найти здесь:

http://revision3.com/tzdaily/sejda-online-pdf

Answer

Есть очень хороший онлайн-инструмент, который называетсяСей-да. Он занимается расширенной обработкой PDF. Не нужно скачивать программное обеспечение. Поскольку этоновыйонлайн-инструмент, в настоящее время он все еще находится в стадии бета-тестирования. Он позволяет извлекать текст из PDF, а также предоставляет множество других функций PDF

http://www.sejda.com/

Краткий видеообзор функций сейды был сделан 14 ноября 2012 года компанией Revision 3, его можно найти здесь:

http://revision3.com/tzdaily/sejda-online-pdf

Question 4

Для этого можно использовать Adobe Acrobat Pro.

Для таблиц: В Acrobat 9/10 была функция выбора таблиц. В Acrobat X можно просто нажать Сохранить как > Электронная таблица > Excel. Он даже объединяет страницы в одну длинную электронную таблицу. Потрясающая функция.

Для текста: Аналогичная функция существует для экспорта в MS Word. Сохранить как > Word > Word Doc.

Источники:

http://blogs.adobe.com/acrolaw/2009/04/exporting-a-pdf-to-excel/
Я просто сделал это, и все сработало как по волшебству.

Answer

Для этого можно использовать Adobe Acrobat Pro.

Для таблиц: В Acrobat 9/10 была функция выбора таблиц. В Acrobat X можно просто нажать Сохранить как > Электронная таблица > Excel. Он даже объединяет страницы в одну длинную электронную таблицу. Потрясающая функция.

Для текста: Аналогичная функция существует для экспорта в MS Word. Сохранить как > Word > Word Doc.

Источники:

http://blogs.adobe.com/acrolaw/2009/04/exporting-a-pdf-to-excel/
Я просто сделал это, и все сработало как по волшебству.

Как скопировать текст из PDF-файла без потери форматирования?

решение1

решение2

решение3

решение4

Связанный контент