
Ich habe vor Kurzem eine PDF-Datei in Microsoft Word konvertiert und habe nun ein Problem, nachdem ich die Ränder und die Papiergröße der konvertierten Datei geändert habe. In der Mitte des Dialogs befindet sich eine Absatzmarke. Hier ist das Beispiel:
"Als Fillmore im Sterben lag, war er superhungrig. Aber sein Arzt versuchte, sein Fieber oder was auch immer zu senken.
Fillmore wollte jedoch nicht aufhören, über seinen Appetit zu reden, also gab ihm der Arzt schließlich einen winzigen Teelöffel Suppe.
Und ganz sarkastisch sagte Fillmore: ‚Die Nahrung ist genießbar‘ und starb dann. Kein Waffenstillstand."
Dieser Dialog sollte eigentlich im selben Absatz stehen, aber im konvertierten Artikel gibt es viele der gleichen Probleme. Wie behebe ich das? (Ich hoffe, ich kann alles auf einmal beheben, das spart Zeit.)
Antwort1
Soweit ich das obige Problem verstehe, hängt es mit der OCR-Verarbeitung zusammen. OCR konvertiert nur, was es versteht, und erstellt ein Dokument, wobei häufig falsche Übersetzungen der Zeichen vorgenommen werden, die missverstanden werden können. Es handelt sich also noch nicht um eine exakte Wissenschaft, da die OCR-Programme zwar sehr gut entwickelt sind, aber man sich bei ihrer Interpretation noch nicht 100 % sicher ist. Wir müssen diese Fehler immer manuell beheben.
Antwort2
Ich glaube nicht, dass die Absatzstrukturen eines PDF-Dokuments dieselben sind wie in jedem Textverarbeitungsprogramm. Es geht nur um die Positionierung des Textes im Blatt und die Zeichen werden entweder als gedrucktes Bild oder als zugeordnetes Zeichen dargestellt, aber ich glaube nicht, dass Formatierungsinformationen wie Farbe, Absätze und nächste Zeile oder Eingabecode ausgeführt werden.