
Ich versuche, Text aus einer PDF-Datei in Word zu kopieren. Wenn ich den Text jedoch in die Word-Datei einfüge, sind die Zeilen in der PDF-Datei „kürzer“, sodass sie in Word nicht die ganze Zeile einnehmen und ich die Sätze manuell verbinden muss, damit sie normal aussehen (mit der Rücktaste).
Ich habe PDF Copypaster ausprobiert. Obwohl es einigermaßen funktioniert, hat es alle Zeilenumbrüche entfernt, sodass keine Absätze erhalten bleiben, aber die Datei, die ich kopieren möchte, ist ziemlich groß und ich muss die eigentlichen Absätze beibehalten. Gibt es eine Möglichkeit, Word so zu gestalten, dass es die Zeilen so gut wie möglich einpasst und dabei auch die eigentlichen Absätze berücksichtigt?
Antwort1
Der Text im PDF besteht aus absolut positionierten Textfragmenten, und Zeilen- und Absatzumbrüche sind im Allgemeinen nicht speziell gekennzeichnet. Die Aufgabe, sie korrekt zu bestimmen, ähnelt daher eher einer OCR, was eine komplexe Aufgabe ist, und Sie werden höchstwahrscheinlich komplexe Software benötigen, um zufriedenstellende Ergebnisse zu erzielen.
MS Word selbst verfügt beispielsweise über die Funktion, PDF-Dokumente zu importieren, erkennt die Umbrüche jedoch ebenfalls nicht immer perfekt (etwa wenn die Textfragmente etwas „schräg“ stehen, was bei gescannten und OCR-erfassten Dokumenten der Fall ist).