PDFs alter Bibliotheksbücher ... Warum scheinen Text und Hintergrund in getrennten Ebenen zu liegen?

PDFs alter Bibliotheksbücher ... Warum scheinen Text und Hintergrund in getrennten Ebenen zu liegen?

Wenn ich eine PDF-Datei öffne, wird oft der Hintergrund einer Seite angezeigt.Vordie Textelemente bzw. Fotos erscheinen.

Das ist mir schleierhaft, denn viele dieser PDFs stammen von Google-Scans alter Bibliotheksbücher ... nicht von mehrschichtigen PSDs, obwohl sie sich genau so zu verhalten scheinen. Werden die Text- und Fotoelemente buchstäblich aus dem Scan entfernt - der Hintergrund wird über den leeren Raum verteilt - und dann werden der Text und die Fotos vektorisiert und wieder auf den Hintergrund gelegt? Was passiert hier eigentlich?

Antwort1

Dies kann daran liegen, dass die OCR-Software verwendet wird, um Bilder automatisch in Text umzuwandeln. Dies passiert, wenn ich Lehrbuchseiten mit meinem Xerox-Scanner mit OCR-Funktion scanne. Oftmals ist der Text in der resultierenden PDF-Datei nicht einmal korrekt, weist zusätzliche Leerzeichen auf oder befindet sich auf völlig anderen Ebenen!

verwandte Informationen