Como posso enquadrar e cortar PDFs feitos de páginas digitalizadas *automaticamente*?

Como posso enquadrar e cortar PDFs feitos de páginas digitalizadas *automaticamente*?

Possível duplicata:
Qual software gratuito posso usar para enquadrar imagens digitalizadas

Tenho vários PDFs compostos de digitalizações de páginas de livros. As digitalizações são feitas de duas páginas por vez e algumas delas ficam distorcidas, fazendo com que o texto pareça ligeiramente inclinado.

Estou procurando uma ferramenta que me permita fazer uma otimização automática, distorcendo as varreduras sem perder a legibilidade. Eu encontrei o software GPLBrisscortar as digitalizações para obter uma proporção de página de 1:1 em vez de 2:1, mas não tenho nenhuma ferramenta para enquadrar as páginas.

eu tropeceidesembrulhar, outra ferramenta de código aberto que parece perfeita para o que quero fazer, mas essa ferramenta é apenas para Linux e não funciona diretamente em arquivos PDF.

Qualquer dica é apreciada.

Responder1

Dê uma olhada emendireitar. É uma ferramenta de linha de comando. O download *zip parece incluir binários para Windows, MacOSX e Linux.

A licença é MPL (Mozilla) ou LPGL (GNU), conforme sua preferência.

A única desvantagem para você parece ser que ele não consome PDFs, apenas imagens PNG e TIFF (AFAICS). Isso significa que você terá que configurar um fluxo de trabalho de s.th. como:

 PDF.orig -> PNG.orig -> PNG.deskewed -> PDF.deskewed

Eu não testei (ainda), acabei de encontrar o site recentemente e o marquei como favorito.

Responder2

Oh, deixe-me adicionar outra resposta. acabei de lembrarnetpbm. Não o uso há anos, mas acho que deveria dar uma nova olhada...

netpbm é um kit de ferramentas muito poderoso para a linha de comando manipular imagens gráficas. Ele envia quase 300 ferramentas separadas. Inclui conversores para cerca de 100 formatos gráficos.

E também possui uma ferramenta de linha de comando que pode girar imagens:

pnmrotate

E possui outra ferramenta que tenta descobrir o ângulo das imagens giradas:

pamtilt

pamtiltretorna um número flutuante de sua estimativa de rotação da imagem. Portanto, a distorção automática das imagens deve estar ao nosso alcance. Um script de shell poderia ser escrito para fazer isso. Isso exigiria etapas diferentes:

  1. Converta uma página PDF em um formato de imagem adequado ao netpbm com a ajuda do Ghostscript.
  2. Use pamtiltpara descobrir automaticamente o ângulo de inclinação da imagem.
  3. Use pnmrotatepara distorcer a imagem.
  4. Reconverta a imagem para PDF.

Se você me fornecer acesso a uma pequena amostra de seus arquivos PDF, eu poderia tentar criar um script de shell para realizar a façanha.


(Estou me perguntando muito se [netpbm] não parece ter uma tag aqui no superusuário + stackoverflow.)

informação relacionada