¿Cómo puedo corregir y recortar archivos PDF creados a partir de páginas escaneadas *automáticamente*?

¿Cómo puedo corregir y recortar archivos PDF creados a partir de páginas escaneadas *automáticamente*?

Posible duplicado:
¿Qué software gratuito puedo utilizar para alinear imágenes escaneadas?

Tengo varios archivos PDF compuestos por escaneos de páginas de libros. Los escaneos se realizan a partir de dos páginas a la vez y algunos de estos escaneos están torcidos, lo que hace que el texto parezca ligeramente inclinado.

Estoy buscando una herramienta que me permita realizar una optimización automática enderezando los escaneos sin perder legibilidad. He encontrado el software GPLbrispara recortar los escaneos para tener una proporción de página de 1:1 en lugar de 2:1, pero no tengo ninguna herramienta para enderezar las páginas.

me topé condesempaquetar, otra herramienta de código abierto que parece perfecta para lo que quiero hacer, pero esa herramienta es solo para Linux y no funciona directamente con archivos PDF.

Se agradece cualquier pista.

Respuesta1

Mira estoalinear. Es una herramienta de línea de comandos. La descarga *zip parece incluir binarios para Windows, MacOSX y Linux.

La licencia es MPL (Mozilla) o LPGL (GNU), la que prefieras.

El único inconveniente para usted parece ser que no consume archivos PDF, sólo imágenes PNG y TIFF (AFAICS). Eso significa que tendrás que configurar un flujo de trabajo de algo. como:

 PDF.orig -> PNG.orig -> PNG.deskewed -> PDF.deskewed

No lo he probado yo mismo (todavía), encontré el sitio web recientemente y lo agregué a favoritos.

Respuesta2

Oh, déjame agregar otra respuesta. me acabo de acordarnetpbm. No lo he usado en años, pero creo que debería echarle un nuevo vistazo...

netpbm es un conjunto de herramientas muy poderoso para que la línea de comandos manipule imágenes gráficas. Envía casi 300 herramientas distintas. Incluye convertidores para unos 100 formatos gráficos.

Y también tiene una herramienta de línea de comandos que puede rotar imágenes:

pnmrotate

Y cuenta con otra herramienta que intenta descubrir el ángulo de las imágenes rotadas:

pamtilt

pamtiltdevuelve un número flotante de su estimación de rotación de la imagen. Por lo tanto, la corrección automática de la inclinación de las imágenes debería estar al alcance de la mano. Se podría escribir un script de shell para hacer eso. Requeriría diferentes pasos:

  1. Convierta una página PDF a un formato de imagen adecuado para netpbm con la ayuda de Ghostscript.
  2. Utilícelo pamtiltpara descubrir automáticamente el ángulo de inclinación de la imagen.
  3. Úselo pnmrotatepara corregir la inclinación de la imagen.
  4. Vuelva a convertir la imagen a PDF.

Si me proporciona acceso a una pequeña muestra de sus archivos PDF, podría intentar crear un script de shell para lograr la hazaña.


(Me pregunto mucho si [netpbm] no parece tener una etiqueta aquí en superusuario+stackoverflow).

información relacionada