¿Formas de convertir y combinar archivos de imagen en un archivo pdf?

Question 1

Tal vez sea una posibilidad remota, pero lo uso pdflatex. Creo un archivo (con script o lo que sea) del estilo:

\documentclass{report}
\usepackage{graphicx}
\begin{document}
\includegraphics[width=0.95\textwidth]{img000}\par
\includegraphics[width=0.95\textwidth]{img001}\par

[...]

\includegraphics[width=0.95\textwidth]{img200}\par
\end{document}

Y luego ejecútelo con pdflatex file. La composición es rápida (y puedes fácilmente, si conoces LaTeX, cambiar la forma y la posición de las imágenes, agregar títulos, etc.)

El problema es que el archivo normalmente es muy grande; Probé con 200 jpg de 500K+. La ejecución tomó alrededor de 7 segundos en mi ram i5/16G y arrojó un PDF de 800Mbytes. Estoy tratando de reducir su tamaño usando

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=lowres.pdf file.pdf

...y ha estado funcionando durante 8 minutos, pero no ha utilizado mucha RAM. No puedo comentar sobre la compresión porque gses más inteligente que yo y descubrió que estaba usando la misma imagen 200 veces, así que la comprimí en un PDF de 50k... lo cual claramente no es real.

Answer

Tal vez sea una posibilidad remota, pero lo uso pdflatex. Creo un archivo (con script o lo que sea) del estilo:

\documentclass{report}
\usepackage{graphicx}
\begin{document}
\includegraphics[width=0.95\textwidth]{img000}\par
\includegraphics[width=0.95\textwidth]{img001}\par

[...]

\includegraphics[width=0.95\textwidth]{img200}\par
\end{document}

Y luego ejecútelo con pdflatex file. La composición es rápida (y puedes fácilmente, si conoces LaTeX, cambiar la forma y la posición de las imágenes, agregar títulos, etc.)

El problema es que el archivo normalmente es muy grande; Probé con 200 jpg de 500K+. La ejecución tomó alrededor de 7 segundos en mi ram i5/16G y arrojó un PDF de 800Mbytes. Estoy tratando de reducir su tamaño usando

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=lowres.pdf file.pdf

...y ha estado funcionando durante 8 minutos, pero no ha utilizado mucha RAM. No puedo comentar sobre la compresión porque gses más inteligente que yo y descubrió que estaba usando la misma imagen 200 veces, así que la comprimí en un PDF de 50k... lo cual claramente no es real.

Question 2

Desafortunadamenteconvertcambia la imagen antes para tener una pérdida mínima de calidad del original jpgque necesita usar img2pdf, yo uso estos comandos:

Una solución de una sola línea más corta que también utiliza solo img2pdffunciones

Hacer PDF

img2pdf *.jp* --output combined.pdf
OCR el PDF de salida

ocrmypdf combined.pdf combined_ocr.pdf

Estos fueron los comandos originales con más comandos y más herramientas necesarias:

1) Esto para crear un pdfarchivo con cada jpgimagen sin pérdida de resolución ni calidad:

ls -1 ./*jpg | xargs -L1 -I {} img2pdf {} -o {}.pdf

2) Esto para concatenar las pdfpáginas en una sola:

pdftk *.pdf cat output combined.pdf

3) Y por último agrego una capa de texto con OCR que no cambia la calidad del escaneo en los archivos PDF para que se puedan buscar:

pypdfocr combined.pdf

Answer