Способы конвертации и объединения файлов изображений в PDF-файл?

Question 1

Может быть, это и маловероятно, но я использую pdflatex. Я создаю файл (со скриптом или чем-то еще) в стиле:

\documentclass{report}
\usepackage{graphicx}
\begin{document}
\includegraphics[width=0.95\textwidth]{img000}\par
\includegraphics[width=0.95\textwidth]{img001}\par

[...]

\includegraphics[width=0.95\textwidth]{img200}\par
\end{document}

А затем запустите его с помощью pdflatex file. Составление происходит быстро (и вы можете легко --- если вы знаете LaTeX --- изменить форму и положение изображений, добавить подписи и т. д.)

Проблема в том, что файл обычно очень большой; я тестировал с 200 jpg размером 500K+ --- запуск занял около 7 секунд на моем i5/16G RAM и выдал PDF размером 800Mbyte. Я пытаюсь уменьшить его размер с помощью

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=lowres.pdf file.pdf

...и он работает уже 8 минут, но не использует много оперативной памяти. Я не могу прокомментировать сжатие, потому что gsон умнее меня и обнаружил, что я использовал одно и то же изображение 200 раз, поэтому сжал его до 50k PDF... что явно нереально.

Answer

Может быть, это и маловероятно, но я использую pdflatex. Я создаю файл (со скриптом или чем-то еще) в стиле:

\documentclass{report}
\usepackage{graphicx}
\begin{document}
\includegraphics[width=0.95\textwidth]{img000}\par
\includegraphics[width=0.95\textwidth]{img001}\par

[...]

\includegraphics[width=0.95\textwidth]{img200}\par
\end{document}

А затем запустите его с помощью pdflatex file. Составление происходит быстро (и вы можете легко --- если вы знаете LaTeX --- изменить форму и положение изображений, добавить подписи и т. д.)

Проблема в том, что файл обычно очень большой; я тестировал с 200 jpg размером 500K+ --- запуск занял около 7 секунд на моем i5/16G RAM и выдал PDF размером 800Mbyte. Я пытаюсь уменьшить его размер с помощью

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=lowres.pdf file.pdf

...и он работает уже 8 минут, но не использует много оперативной памяти. Я не могу прокомментировать сжатие, потому что gsон умнее меня и обнаружил, что я использовал одно и то же изображение 200 раз, поэтому сжал его до 50k PDF... что явно нереально.

Question 2

К сожалениюconvertизменяет изображение до этого, поэтому для минимальной потери качества оригинала jpgвам нужно использовать img2pdf, я использую эти команды:

Более короткое решение в одну строку, также использующее только img2pdfфункции

Сделать PDF-файл

img2pdf *.jp* --output combined.pdf
OCR выходного PDF-файла

ocrmypdf combined.pdf combined_ocr.pdf

Это были исходные команды с дополнительными командами и инструментами:

1) Это позволит создать pdfфайл из каждого jpgизображения без потери разрешения или качества:

ls -1 ./*jpg | xargs -L1 -I {} img2pdf {} -o {}.pdf

2) Это для объединения pdfстраниц в одну:

pdftk *.pdf cat output combined.pdf

3) И последнее, я добавляю слой текста с распознанным текстом, который не меняет качество сканирования в PDF-файлах, чтобы их можно было искать:

pypdfocr combined.pdf

Answer