Conversión automática de PDF a formato legible a ciegas

2024-7-7 • tag-icon

Conversión automática de PDF a formato legible a ciegas

Tengo un amigo ciego y tengo un PDF que me gustaría darle para que lo lea.

El PDF tiene aproximadamente 200 páginas de texto bellamente diseñado (con algunas imágenes y figuras que contienen texto, pero son lo suficientemente raras como para eliminarlas mediante una limpieza manual). Desafortunadamente, la estructura lógica del PDF está mal representada: el PDF desconoce su flujo de texto de dos columnas y ninguna de las entradas del índice y de la tabla de contenido son realmente enlaces.

Tengo fácil acceso a una máquina Linux y un acceso un poco menos fácil a una máquina con Windows XP, y conozco las expresiones regulares y los lenguajes de secuencias de comandos para automatizar el posprocesamiento.

Hasta ahora he encontrado una manera de cortar el PDF por la mitad verticalmente (usando el código dehttp://snipplr.com/view/18924/split-crop-double-page-pdfs-in-two/, después de convertir el PDF a PDF1.4 para que no contenga un crossrefstream o como se llame), de modo que la mayor parte del contenido esté en el orden correcto, y luego usarlo pdftohtmlpara extraer el texto con algunas marcas. Desafortunadamente, esto no puede reproducir la estructura lógica del documento (reconoce algunas marcas en cursiva, pero ya pierde todos los títulos de capítulos, secciones y subsecciones, que siempre se resaltan utilizando el uso constante del tamaño y color de fuente, sin mencionar los saltos de párrafo). etc.)

Tenía grandes esperanzas enCalibre, pero esa herramienta de conversión tampoco puede manejar archivos PDF de dos columnas mal marcados y tampoco puede derivar la estructura de las fuentes utilizadas, aunque tiene algunas ventajas para mantener los párrafos juntos.

¿Cómo convierto mi PDF a un formato adecuado para que lo acceda una persona ciega?

información relacionada