
Мой вопрос не относится непосредственно к LaTeX, а к полученному PDF. Короче говоря: я хочу иметь возможность копировать текст из PDF в TXT-файл как непрерывный текст. Я считаю, что это распространенная проблема для многих людей.
Я работаю над документом LaTeX, который компилируется в файл PDF. Мой текст содержит многоразрывы словв конце строки. Иногда мне нужно скопировать полученный текст из PDF впростой текстфайл ( *.txt
).К сожалению:
PDF-файлы созданы для имитации печатной страницы и предназначены только для вывода, а не для ввода данных. PDF-файл по сути представляет собой карту, содержащую точное расположение символов (отдельных букв или знаков препинания и т. д.) или изображений.В большинстве случаевPDF-файл даже не хранит информацию о том, где заканчивается одно слово и начинается другое, не говоря уже о таких вещах, как мягкие и жесткие переносы в конце абзацев.
Поэтому мне не следует удивляться, когда я скомпилирую следующий текст в PDF:
\documentclass{article}
\usepackage{graphicx}
\begin{document}
\title{Introduction to \LaTeX{}}
\author{Author's Name}
\maketitle
\begin{abstract}
The abstract text goes here.
\end{abstract}
\section{Introduction}
This is \LaTeX text that will be copied and pasted. Verylongword. Taumatawhakatangihangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu is a hill near Porangahau, south of Waipukurau in southern Hawke's Bay, New Zealand.
\subsection{Subsection Heading Here}
This text comes from Wikipedia.: The name "Taumatawhakatangihangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu" translates roughly as "The summit where Tamatea, the man with the big knees, the slider, climber of mountains, the land-swallower who travelled about, played his nose flute to his loved one".
\end{document}
что приводит к:
и я копирую весь текст в TXT-файл, получаю:
Introduction to L A TEX
Author’s Name
April 29, 2017
Abstract
The abstract text goes here.
1
Introduction
This is L A TEXtext that will be copied and pasted. Verylongword. Taumatawhakatangi-
hangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu is
a hill near Porangahau, south of Waipukurau in southern Hawke’s Bay, New
Zealand.
1.1
Subsection Heading Here
This text comes from Wikipedia.: The name ”Taumatawhakatangihangakoauauo-
tamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu” translates roughly
as ”The summit where Tamatea, the man with the big knees, the slider, climber
of mountains, the land-swallower who travelled about, played his nose flute to
his loved one”.
Большинствораздражающийявляются ли переносы слов и окончания строк новыми строками, так что скопированный текст не является непрерывным. Есть ли какой-нибудь трюк, который может помочь мне скопировать текст из PDF в TXT-файл как непрерывный текст?
Копирование текста напрямую из исходного текста TEX не представляется возможным, поскольку приведенный выше пример сильно упрощен — типичный исходный текст TEX содержит макросы, команды форматирования и т. д.
решение1
Публикация (как вики сообщества) комментария Marijn, о котором автор поста сказал: «Спасибо @Marijn! Можешь опубликовать свой ответ, чтобы я мог его принять».
Естьвопрособ этом на Stack Overflow, и из ответов там, автор темы считает наиболее работающимдетекс(opendetex). Запускается на исходном TeX-файле, а не на PDF-файле.
Для полноты картины, вот еще несколько вариантов, упомянутых в ответе на Stack Overflow:
- catdviкоторый запускается на DVI-файле
- Конвертация в HTML (с помощью htlatex / tex4t / hyperlatex /гевея), затем извлекаем текст из HTML-файла
- Пандок, универсальный конвертер между многими форматами
- LaTeX2RTF для преобразования в RTF, а затем извлечения текста каким-либо образом
- унтекс
Более подробную информацию см. в разделе часто задаваемых вопросов TeX:Преобразование из (La)TeX в обычный текст
Примечание: Это вики-проект сообщества, поэтому, пожалуйста, по возможности редактируйте ответ, а не оставляйте комментарии.
решение2
Поскольку вы уже упомянули, что этот вопрос не относится конкретно к LaTeX, вас не должно удивлять, что мой ответ также не имеет отношения к LaTeX :).
Один из способов, вероятно, заключается в использовании так называемогоПрограммное обеспечение OCR (оптическое распознавание символов).
- Программное обеспечение OCR способно распознавать изображения и преобразовывать их в редактируемый текст.
- Программное обеспечение OCR даже может понимать многоколоночную компоновку и т. д.
- Я читатель известного немецкого компьютерного журнала под названиемc't.
- В выпуске 6/2017 был хороший обзор программного обеспеченияAbbyy FineReader 14(с 30-дневным пробным периодом).
- Или попробуйте другое программное обеспечение OCR, напримерFreeOCRили просто погуглите другие варианты :).