Maneiras de converter e combinar arquivos de imagem em um arquivo PDF?

Question 1

Talvez seja um tiro no escuro, mas eu uso pdflatex. Eu crio um arquivo (com um script ou qualquer outro) do estilo:

\documentclass{report}
\usepackage{graphicx}
\begin{document}
\includegraphics[width=0.95\textwidth]{img000}\par
\includegraphics[width=0.95\textwidth]{img001}\par

[...]

\includegraphics[width=0.95\textwidth]{img200}\par
\end{document}

E então execute-o com pdflatex file. A composição é rápida (e você pode facilmente --- se você conhece LaTeX --- alterar a forma e a posição das imagens, adicionar legendas, etc...)

O problema é que o arquivo normalmente é muito grande; Testei com 200 jpg de 500K+ --- a execução demorou cerca de 7 segundos na minha memória RAM i5/16G e gerou um PDF de 800Mbyte. Estou tentando reduzir seu tamanho usando

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=lowres.pdf file.pdf

...e está funcionando há 8 minutos, mas não usou muita RAM. Não posso comentar sobre a compactação porque gsé mais inteligente do que eu e descobri que estava usando a mesma imagem 200 vezes, então comprimi a coisa em um PDF de 50k... o que claramente não é real.

Answer

Talvez seja um tiro no escuro, mas eu uso pdflatex. Eu crio um arquivo (com um script ou qualquer outro) do estilo:

\documentclass{report}
\usepackage{graphicx}
\begin{document}
\includegraphics[width=0.95\textwidth]{img000}\par
\includegraphics[width=0.95\textwidth]{img001}\par

[...]

\includegraphics[width=0.95\textwidth]{img200}\par
\end{document}

E então execute-o com pdflatex file. A composição é rápida (e você pode facilmente --- se você conhece LaTeX --- alterar a forma e a posição das imagens, adicionar legendas, etc...)

O problema é que o arquivo normalmente é muito grande; Testei com 200 jpg de 500K+ --- a execução demorou cerca de 7 segundos na minha memória RAM i5/16G e gerou um PDF de 800Mbyte. Estou tentando reduzir seu tamanho usando

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=lowres.pdf file.pdf

...e está funcionando há 8 minutos, mas não usou muita RAM. Não posso comentar sobre a compactação porque gsé mais inteligente do que eu e descobri que estava usando a mesma imagem 200 vezes, então comprimi a coisa em um PDF de 50k... o que claramente não é real.

Question 2

Infelizmenteconvertaltera a imagem antes para ter a mínima perda de qualidade do original que jpgvocê precisa usar img2pdf, eu uso estes comandos:

Uma solução mais curta de um liner também usando apenas img2pdfrecursos

Criar PDF

img2pdf *.jp* --output combined.pdf
OCR do PDF de saída

ocrmypdf combined.pdf combined_ocr.pdf

Estes foram os comandos originais com mais comandos e mais ferramentas necessárias:

1) Isso para criar um pdfarquivo de cada jpgimagem sem perda de resolução ou qualidade:

ls -1 ./*jpg | xargs -L1 -I {} img2pdf {} -o {}.pdf

2) Isso para concatenar as pdfpáginas em uma:

pdftk *.pdf cat output combined.pdf

3) E por último adiciono uma camada de texto OCR que não altera a qualidade da digitalização nos PDFs para que possam ser pesquisados:

pypdfocr combined.pdf

Answer