OCR y texto en capas en pdf

OCR y texto en capas en pdf

Quiero realizar OCR en un pdf para que se pueda realizar búsquedas.

Suponga que tiene un documento PDF creado con un escáner o que consta de datos de imagen pero no tiene datos de texto. Los lectores de PDF ni las aplicaciones de búsqueda de escritorio no pueden buscar un PDF de este tipo. pdfocr es una utilidad simple que creé que toma un archivo PDF y luego genera uno nuevo que tiene la capa de texto agregada, por lo que su lector de PDF puede buscarlo y su aplicación de búsqueda de escritorio puede indexarlo, pero sigue siendo idéntico cuando se imprime.

DeCómo: hacer que los archivos PDF escaneados puedan realizar búsquedas (OCR) usando pdfocr

Actualmente, el software de Windows como FreeOCR solo crea un archivo TXT a partir del pdf, pero solo quiero ese pdf original que seabuscable.

Respuesta1

Adobe Acrobat tiene la funcionalidad a la que te refieres. En Acrobat 10/11, la funcionalidad se encuentra en la sección "Reconocer texto" de las herramientas (consultedocumentación oficial). La misma funcionalidad estaba disponible en versiones anteriores, pero se accedía a ella de forma ligeramente diferente (consulteblog de adobe).

Puede realizar OCR en cualquiera o en todas las páginas individualmente y el PDF aparece idéntico después de aplicar OCR (pero luego se puede realizar búsquedas).

información relacionada