Como descobrir se um arquivo PDF possui dados não visíveis na caixa delimitadora?

2024-6-15 • tag-icon

Como descobrir se um arquivo PDF possui dados não visíveis na caixa delimitadora?

Estou incorporando uma pequena área de uma página grande em um documento compilado com pdflatex (usando \includegraphics). Uma imagem/captura de tela rasterizada produz artefatos ao aumentar o zoom, então, em vez disso, estou salvando a página como PDF com a caixa de diálogo de impressão do navegador e cortando a seção necessária.

$ pdfcrop --margins "-50 -65 -40 -400" full-page.pdf area.pdf

Esta ferramenta altera a caixa delimitadora e produz o desejadovisualaparência. Mas o arquivo preserva todo o conteúdo do original.

$ ls -lh *.pdf
-rw-rw-r-- 1 user group 7.1M Apr 27 14:48 area.pdf
-rw------- 1 user group 7.1M Apr 27 14:02 full-page.pdf

Há informações pessoais contidas fora da caixa delimitadora que gostaria de garantir que não estejam no PDF recortado (nomes de usuário, carimbos de data e hora, ids, etc.). Dada uma sequência de texto simples ascii no documento original, por exemplo, meu nome de usuário, como eu faria para descobrir se ele está presente no PDF. Posso esperar que o texto ascii da página esteja contido literalmente ou seria codificado em alguma forma vetorial?

Mencionei que o arquivo vem de um navegador, porque intuitivamente, os navegadores podem codificar seus PDFs impressos de maneira previsível, talvez seja fácil recortar áreas se mapear diretamente para o DOM.

experimento pdf2ps

Eu converti o pdf para ps e vice-versa (pdf2ps, seguido por ps2pdf) e isso reduziu drasticamente o tamanho do arquivo, mas sem saber exatamente como interpretar o conteúdo do arquivo, ou saber o que está envolvido nessas conversões, posso Não tenho certeza se o conteúdo do qual quero me livrar finalmente desapareceu, está oculto ou simplesmente foi reotimizado/compactado espacialmente.

$ pdf2ps area.pdf && ps2pdf area.ps
$ ls -lh *.pdf
-rw-rw-r-- 1 user group 259K Apr 27 14:59 area.pdf
-rw------- 1 user group 7.1M Apr 27 14:02 full-page.pdf

A página inicial contém principalmente fontes e linhas, com exceção de alguns ícones. As fontes, entretanto, são CJK. No final, tudo parece bom em qualquer escala, então parece que os caminhos vetoriais são preservados por meio de uma conversão.

Editar: Reformulando a pergunta à luz de umpergunta semelhantesobre como remover conteúdo com pdfcrop (eu perdi isso na minha pesquisa antes de escrever aqui). Estou mais interessado em garantir que alguns dos dados do texto sejamnãono pdf neste momento. Estou perguntando a esta comunidade devido à familiaridade que seus usuários têm com a incorporação de documentos desse tipo, bem como com os formatos subjacentes envolvidos.

experimento pdf2ps

informação relacionada