
Wenn ich eine PDF-Datei öffne, wird oft der Hintergrund einer Seite angezeigt.Vordie Textelemente bzw. Fotos erscheinen.
Das ist mir schleierhaft, denn viele dieser PDFs stammen von Google-Scans alter Bibliotheksbücher ... nicht von mehrschichtigen PSDs, obwohl sie sich genau so zu verhalten scheinen. Werden die Text- und Fotoelemente buchstäblich aus dem Scan entfernt - der Hintergrund wird über den leeren Raum verteilt - und dann werden der Text und die Fotos vektorisiert und wieder auf den Hintergrund gelegt? Was passiert hier eigentlich?
Antwort1
Dies kann daran liegen, dass die OCR-Software verwendet wird, um Bilder automatisch in Text umzuwandeln. Dies passiert, wenn ich Lehrbuchseiten mit meinem Xerox-Scanner mit OCR-Funktion scanne. Oftmals ist der Text in der resultierenden PDF-Datei nicht einmal korrekt, weist zusätzliche Leerzeichen auf oder befindet sich auf völlig anderen Ebenen!