
Meine Frage bezieht sich nicht explizit auf LaTeX selbst, sondern auf das resultierende PDF. Um es kurz zu machen: Ich möchte Text aus PDF als Fließtext in eine TXT-Datei kopieren können. Ich glaube, das ist ein häufiges Problem vieler Leute.
Ich arbeite an einem LaTeX-Dokument, das in eine PDF-Datei kompiliert wird. Mein Text enthält vieleWortumbrücheam Ende einer Zeile. Manchmal muss ich den resultierenden Text aus PDF in dasKlartextDatei ( *.txt
).Bedauerlicherweise:
PDFs sollen eine gedruckte Seite imitieren und sind nur als Ausgabeformat, nicht als Eingabeformat konzipiert. Ein PDF ist im Grunde eine Karte, die die genaue Position von Zeichen (einzelne Buchstaben oder Satzzeichen usw.) oder Bildern enthält.In den meisten Fällen, eine PDF-Datei speichert nicht einmal Informationen darüber, wo ein Wort endet und ein anderes beginnt, geschweige denn Dinge wie weiche und harte Umbrüche am Absatzende.
Daher sollte es mich nicht überraschen, wenn ich den folgenden Text als PDF zusammenstelle:
\documentclass{article}
\usepackage{graphicx}
\begin{document}
\title{Introduction to \LaTeX{}}
\author{Author's Name}
\maketitle
\begin{abstract}
The abstract text goes here.
\end{abstract}
\section{Introduction}
This is \LaTeX text that will be copied and pasted. Verylongword. Taumatawhakatangihangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu is a hill near Porangahau, south of Waipukurau in southern Hawke's Bay, New Zealand.
\subsection{Subsection Heading Here}
This text comes from Wikipedia.: The name "Taumatawhakatangihangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu" translates roughly as "The summit where Tamatea, the man with the big knees, the slider, climber of mountains, the land-swallower who travelled about, played his nose flute to his loved one".
\end{document}
was dazu führt:
und ich kopiere den gesamten Text in eine TXT-Datei, erhalte ich:
Introduction to L A TEX
Author’s Name
April 29, 2017
Abstract
The abstract text goes here.
1
Introduction
This is L A TEXtext that will be copied and pasted. Verylongword. Taumatawhakatangi-
hangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu is
a hill near Porangahau, south of Waipukurau in southern Hawke’s Bay, New
Zealand.
1.1
Subsection Heading Here
This text comes from Wikipedia.: The name ”Taumatawhakatangihangakoauauo-
tamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu” translates roughly
as ”The summit where Tamatea, the man with the big knees, the slider, climber
of mountains, the land-swallower who travelled about, played his nose flute to
his loved one”.
Am meistenirritierendsind Wortumbrüche und Zeilenenden, die zu neuen Zeilen werden, sodass der kopierte Text nicht fortlaufend ist. Gibt es einen Trick, mit dem ich Text aus einer PDF- in eine TXT-Datei als fortlaufenden Text kopieren kann?
Das direkte Kopieren von Text aus der TEX-Quelle ist keine Option, da das obige Beispiel sehr vereinfacht ist – eine typische TEX-Quelle enthält Makros, Formatierungsbefehle usw.
Antwort1
Posten (als Community-Wiki) des Kommentars von Marijn, zu dem der OP sagte: „Danke @Marijn! Du kannst deine Antwort posten, damit ich sie akzeptieren kann.“
Es gibteine Fragedarüber auf Stack Overflow, und von den Antworten dort, findet der OP, dass dies am besten funktioniertdetex(opendetex). Dies wird auf der TeX-Quelldatei und nicht auf der PDF-Datei ausgeführt.
Nur der Vollständigkeit halber seien in der Antwort von Stack Overflow folgende weitere Optionen genannt:
- Abonnierenwelches auf der DVI-Datei ausgeführt wird
- Konvertieren in HTML (mit htlatex / tex4t / hyperlatex /hevea), dann Text aus der HTML-Datei extrahieren
- Pandoc, ein vielseitiger Konverter zwischen vielen Formaten
- LaTeX2RTF in RTF konvertieren, dann den Text irgendwie extrahieren
- untex
Weitere Informationen finden Sie in den TeX-FAQs:Konvertierung von (La)TeX in Klartext
Hinweis: Dies ist ein Community-Wiki. Bearbeiten Sie daher nach Möglichkeit die Antwort, anstatt Kommentare zu hinterlassen.
Antwort2
Da Sie bereits erwähnt haben, dass dies keine LaTeX-spezifische Frage ist, sollte es Sie nicht überraschen, dass meine Antwort auch nicht LaTeX-bezogen ist :).
Eine Möglichkeit ist wahrscheinlich die Verwendung eines sog.OCR-Software (Optische Zeichenerkennung).
- OCR-Software kann Bilder verstehen und in bearbeitbaren Text umwandeln.
- OCR-Software kann sogar mehrspaltige Layouts usw. verstehen.
- Ich bin Leser einer bekannten deutschen Computerzeitschrift namensc't.
- In der Ausgabe 6/2017 gab es einen guten Testbericht zur SoftwareAbbyy FineReader 14(mit einer 30-tägigen Testversion).
- Oder versuchen Sie eine andere OCR-Software wieKostenlose OCRoder googeln Sie einfach nach anderen Optionen :).