Archivos PDF de libros antiguos de la biblioteca... ¿Por qué el texto y el fondo parecen estar en capas separadas?

Archivos PDF de libros antiguos de la biblioteca... ¿Por qué el texto y el fondo parecen estar en capas separadas?

A menudo, cuando abro un PDF, veo aparecer el fondo de una página,antesAparecen los elementos de texto o las fotografías.

Esto me resulta desconcertante, porque muchos de estos archivos PDF provienen de escaneos de Google de libros antiguos de la biblioteca... no de archivos PSD de varias capas, que es exactamente como parecen comportarse. ¿Los elementos de texto y fotografía se eliminan literalmente del escaneo (el fondo se extiende sobre el espacio vacío) y luego el texto y las fotografías se vectorizan y se vuelven a colocar en capas sobre el fondo? ¿Qué está pasando realmente?

Respuesta1

Esto puede deberse a que se utiliza el software OCR para convertir imágenes en texto automáticamente. Esto sucede cuando escaneo páginas de libros de texto con mi escáner Xerox con capacidad OCR. A menudo, el texto del archivo PDF resultante ni siquiera puede ser preciso, tiene espacios adicionales o está en capas completamente diferentes.

información relacionada