Wie kopiere ich Text aus einer PDF-Datei, ohne die Formatierung zu verlieren?

Wie kopiere ich Text aus einer PDF-Datei, ohne die Formatierung zu verlieren?

Wenn ich Text aus einer PDF-Datei in einen Texteditor kopiere, wird er auf verschiedene Weise verstümmelt. Formatierungen wie Fett- und Kursivschrift gehen verloren, weiche Zeilenumbrüche innerhalb eines Textabsatzes werden in harte Zeilenumbrüche umgewandelt, Gedankenstriche zur Worttrennung über zwei Zeilen bleiben erhalten, auch wenn dies nicht der Fall sein sollte, und einfache und doppelte Anführungszeichen werden durch ?-Zeichen ersetzt.

Im Idealfall möchte ich Text aus einer PDF-Datei kopieren können und die Formatierung in HTML-Codes umwandeln, „intelligente Anführungszeichen“ in „ und „“ umwandeln und Zeilenumbrüche richtig ausführen lassen. Gibt es eine Möglichkeit, dies zu tun?

Antwort1

Zunächst müssen Sie verstehen, was ein PDF ist. PDFs sind so konzipiert, dass sie eine gedruckte Seite imitieren, und sie sind so konzipiert,nurals Ausgabeformat, nicht als Eingabeformat. Ein PDF ist grundsätzlich eine Karte, die die genaue Position von Zeichen (einzelne Buchstaben oder Satzzeichen usw.) oder Bildern enthält.In den meisten Fällen, ein PDF speichert nicht einmal Informationen darüber, wo einWortendet und ein anderer beginnt, geschweige denn Dinge wie weiche und harte Umbrüche am Absatzende.

(Einige neuere PDF-Dateien speichern zwar Informationen zu diesem Thema, aber das ist eine neue Technologie und Sie können froh sein, wenn Sie überhaupt solche PDF-Dateien finden. Und selbst wenn, weiß Ihr PDF-Viewer möglicherweise nichts davon.)

Wie dem auch sei, es liegt an Ihrer Software, eine Art „künstliche Intelligenz“ zu implementieren, um allein aus der Position einzelner Zeichen zu extrahieren, was ein Wort, was ein Absatz usw. ist. Verschiedene Software wird dies besser machen als andere, und es wird auch davon abhängen, wie das PDF erstellt wurde. In jedem Fall sollten SieniemalsErwarten Sie perfekte Ergebnisse. Das Ausgabe-PDF ist nicht dasselbe wie das Quelldokument. Es ist viel besser, wenn möglich zu versuchen, das zu erhalten.

Die Standardlösung für Ihr Problem ist die Verwendung von Adobe Acrobat Professional (dem teuren, nicht dem kostenlosen Reader), um das PDF in HTML zu konvertieren. Aber selbst damit erzielen Sie keine perfekten Ergebnisse.

Es gibt kostenlose Software, mit der man Text aus PDFs extrahieren kann, wobei einige Formatierungen erhalten bleiben. Aber auch hier gilt: Erwarten Sie keine perfekten Ergebnisse. Siehe z. B.Calibre (das in das RTF-Format konvertieren kann),pdftohtml/pdfreflowoder derAbiWord Textverarbeitung(mit allen aktivierten Import-/Export-Plugins). Es gibt auch ein PDF-Import-Plugin für OpenOffice.

Aber erwarten Sie bei keinem dieser Ergebnisse Perfektion. Sie gehen hier gegen den Strich. PDF ist einfach nicht als editierbares Eingabeformat gedacht.

Antwort2

Eine andere Möglichkeit besteht darin, den kostenlosen PDF-Viewer Foxit herunterzuladen und zu verwenden (er ist gut). Dann können Sie „Speichern unter“ wählen und .txt auswählen, um es in eine Textdatei zu konvertieren. Dabei bleibt die gesamte Formatierung erhalten. Ich weiß nicht, ob Sie dasselbe in Adobe tun können, da ich es vor einiger Zeit nicht mehr verwendet habe, als ich zu Foxit gewechselt bin.

Antwort3

Es gibt ein sehr gutes Online-Tool namensSej-da. Es beschäftigt sich mit erweiterter PDF-Manipulation. Es gibt keine Software zum Herunterladen. Da es sich um einneuOnline-Tool, das sich derzeit noch in der Beta-Phase befindet. Es ermöglicht Ihnen, Text aus einer PDF-Datei zu extrahieren und bietet eine Vielzahl anderer PDF-Funktionen

http://www.sejda.com/

Eine kurze Videoübersicht der Sejda-Funktionen wurde am 14. November 2012 von Revision 3 erstellt und ist hier zu finden:

http://revision3.com/tzdaily/sejda-online-pdf

Antwort4

Sie können hierfür Adobe Acrobat Pro verwenden.

Für Tabellen: Mit Acrobat 9/10 gab es eine Funktion zum Auswählen von Tabellen. Mit Acrobat X können Sie einfach auf „Speichern unter“ > „Tabelle“ > „Excel“ klicken. Es werden sogar Seiten zu einer langen Tabelle zusammengefügt. Tolle Funktion.

Für Text: Eine ähnliche Funktion gibt es für den Export nach MS Word. Speichern unter > Word > Word-Dokument.

Quellen:

verwandte Informationen