Копирование непрерывного текста из файла PDF в файл TXT

Копирование непрерывного текста из файла PDF в файл TXT

Мой вопрос не относится непосредственно к LaTeX, а к полученному PDF. Короче говоря: я хочу иметь возможность копировать текст из PDF в TXT-файл как непрерывный текст. Я считаю, что это распространенная проблема для многих людей.

Я работаю над документом LaTeX, который компилируется в файл PDF. Мой текст содержит многоразрывы словв конце строки. Иногда мне нужно скопировать полученный текст из PDF впростой текстфайл ( *.txt).К сожалению:

PDF-файлы созданы для имитации печатной страницы и предназначены только для вывода, а не для ввода данных. PDF-файл по сути представляет собой карту, содержащую точное расположение символов (отдельных букв или знаков препинания и т. д.) или изображений.В большинстве случаевPDF-файл даже не хранит информацию о том, где заканчивается одно слово и начинается другое, не говоря уже о таких вещах, как мягкие и жесткие переносы в конце абзацев.

Поэтому мне не следует удивляться, когда я скомпилирую следующий текст в PDF:

\documentclass{article}
\usepackage{graphicx}

\begin{document}

\title{Introduction to \LaTeX{}}
\author{Author's Name}

\maketitle

\begin{abstract}
The abstract text goes here.
\end{abstract}

\section{Introduction}
This is \LaTeX text that will be copied and pasted. Verylongword. Taumatawhakatangi­hangakoauauotamatea­turipukakapikimaunga­horonukupokaiwhen­uakitanatahu is a hill near Porangahau, south of Waipukurau in southern Hawke's Bay, New Zealand.

\subsection{Subsection Heading Here}
This text comes from Wikipedia.: The name "Taumatawhakatangihangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu" translates roughly as "The summit where Tamatea, the man with the big knees, the slider, climber of mountains, the land-swallower who travelled about, played his nose flute to his loved one".

\end{document}

что приводит к:

PDF создан на основе примера

и я копирую весь текст в TXT-файл, получаю:

Introduction to L A TEX
Author’s Name
April 29, 2017
Abstract
The abstract text goes here.
1
Introduction
This is L A TEXtext that will be copied and pasted. Verylongword. Taumatawhakatangi-
hangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu is
a hill near Porangahau, south of Waipukurau in southern Hawke’s Bay, New
Zealand.
1.1
Subsection Heading Here
This text comes from Wikipedia.: The name ”Taumatawhakatangihangakoauauo-
tamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu” translates roughly
as ”The summit where Tamatea, the man with the big knees, the slider, climber
of mountains, the land-swallower who travelled about, played his nose flute to
his loved one”.

Большинствораздражающийявляются ли переносы слов и окончания строк новыми строками, так что скопированный текст не является непрерывным. Есть ли какой-нибудь трюк, который может помочь мне скопировать текст из PDF в TXT-файл как непрерывный текст?

Копирование текста напрямую из исходного текста TEX не представляется возможным, поскольку приведенный выше пример сильно упрощен — типичный исходный текст TEX содержит макросы, команды форматирования и т. д.

решение1

Публикация (как вики сообщества) комментария Marijn, о котором автор поста сказал: «Спасибо @Marijn! Можешь опубликовать свой ответ, чтобы я мог его принять».

Естьвопрособ этом на Stack Overflow, и из ответов там, автор темы считает наиболее работающимдетекс(opendetex). Запускается на исходном TeX-файле, а не на PDF-файле.

Для полноты картины, вот еще несколько вариантов, упомянутых в ответе на Stack Overflow:

  • catdviкоторый запускается на DVI-файле
  • Конвертация в HTML (с помощью htlatex / tex4t / hyperlatex /гевея), затем извлекаем текст из HTML-файла
  • Пандок, универсальный конвертер между многими форматами
  • LaTeX2RTF для преобразования в RTF, а затем извлечения текста каким-либо образом
  • унтекс

Более подробную информацию см. в разделе часто задаваемых вопросов TeX:Преобразование из (La)TeX в обычный текст

Примечание: Это вики-проект сообщества, поэтому, пожалуйста, по возможности редактируйте ответ, а не оставляйте комментарии.

решение2

Поскольку вы уже упомянули, что этот вопрос не относится конкретно к LaTeX, вас не должно удивлять, что мой ответ также не имеет отношения к LaTeX :).

Один из способов, вероятно, заключается в использовании так называемогоПрограммное обеспечение OCR (оптическое распознавание символов).

  • Программное обеспечение OCR способно распознавать изображения и преобразовывать их в редактируемый текст.
  • Программное обеспечение OCR даже может понимать многоколоночную компоновку и т. д.
  • Я читатель известного немецкого компьютерного журнала под названиемc't.
  • В выпуске 6/2017 был хороший обзор программного обеспеченияAbbyy FineReader 14(с 30-дневным пробным периодом).
  • Или попробуйте другое программное обеспечение OCR, напримерFreeOCRили просто погуглите другие варианты :).

Связанный контент