A extração de imagens incorporadas de um PDF resulta em pequenas listras

A extração de imagens incorporadas de um PDF resulta em pequenas listras

Eu tenho um pdf importante onde preciso extrair a imagem de origem, o mais sem perdas possível (por exemplo, usando png). Por algum motivo, parece que a imagem de origem é feita de 226 faixas de imagem, e quando eu as extraio, por exemplo, com

pdfimages -png name.pdf out-

Eu recebo as 227 pequenas listras. Não é isso que eu quero. Existe uma maneira de obter uma única imagem? Usandolista de imagens em pdfme diz as informações sobre as listras e usando, por exemplo, o acimapdfimages -png nome.pdf out-me dá as 227 imagens únicas. Uma imagem tem, por exemplo, 1604 px de largura e 5 px de altura. Até onde eu verifiquei, todas as imagens parecem ter 5 px de altura e, com 227 imagens únicas, devo obter uma única imagem de 1604 x 1135 px.

Atualizar Esqueci de acrescentar que o que Ryan J. Yoder escreveu abaixo também foi minha opinião sobre o assunto, o que significa que o pdf foi de fato criado dividindo a imagem original em 227 listras.

E para concluir, se for assim (lista de imagens em pdfdiz que é assim) existe uma maneira de criar automaticamente uma única imagem a partir das listras, por exemplo, usando o graphicsmagick.

Responder1

Ghostscript pode ser usado para obter imagens das páginas conforme elas aparecem em um visualizador, por exemplo, para .pngimagens com 300 dpi denominadas out_001.png, out_002.png,… from in.pdf:

gs -q -dBATCH -dNOPAUSE -sDEVICE=png16m -r300 -sOutputFile=out_%03d.png in.pdf

Responder2

Você poderia usar o ImageMagick para 'converter' o PDF em png usando a linha de comando:

convert -density 300 page.pdf page.png

ou qualquer densidade (DPI) que você desejar.

informação relacionada