Como você remove uma linha/chave específica de metadados de um PDF

Como você remove uma linha/chave específica de metadados de um PDF

Li em vários fóruns que a parte do PDF universal dos metadados dos livros em PDF está malformada e causa erros ao tentar lê-la. Como você remove uma chave e um valor específicos do PDF e isso corromperá os dados?

Aqui estão os dados

File Type                       : PDF
File Type Extension             : pdf
MIME Type                       : application/pdf
PDF Version                     : 1.6
Linearized                      : No
Universal                       : PDF
The                             : process
Code Mantra                     : Acrobat
Author                          : ModDate
LLC                             : http://www.codemantra.com
Create Date                     : 2004:08:26 09:42:01+05:30
EBX PUBLISHER                   : University of Toronto Press
Page Layout                     : SinglePage
Page Count                      : 419
Page Mode                       : UseOutlines
Has XFA                         : No
XMP Toolkit                     : 3.1-702
Code Mantra 002 C0020 LLC       : http://www.codemantra.com
Universal 0020 PDF              : The process that creates this PDF constitutes a trade secret of codeMantra, LLC and is protected by the copyright laws of the United States
Modify Date                     : 2012:09:11 15:27:50+05:30
Metadata Date                   : 2012:09:11 15:27:50+05:30
Creator Tool                    : Acrobat 5.0 Paper Capture Plug-in for Windows
Document ID                     : uuid:ccee9833-967a-4d92-b5fa-12faa7d620c4
Instance ID                     : uuid:51e5148e-3afa-45df-82b8-26d43c7e6ffc
Format                          : application/pdf
Title                           : 
Creator                         : .

Qualquer ajuda seria apreciada

Responder1

Esta resposta pressupõe que você deseja usar o exiftool para isso. Provavelmente existem outras ferramentas que podem fazer o trabalho melhor no caso de PDFs, especialmente se você quiser direcionar itens individuais, mas não remover todos eles.

Primeiro, você precisa determinar o nome da tag (vejaPerguntas frequentes sobre exiftool nº 2). A saída que você mostra lista as descrições das tags, não os nomes das tags. Execute este comando para listar as tags por nome.
exiftool -s File.PDF

Depois de ter os nomes das tags que deseja remover, seu comando seria
exiftool -TAG= <FileOrDir>
Você pode limpar várias tags e listar vários arquivos e diretórios nesse comando.

Se receber um erro semelhante a Warning: Tag 'xxx' is not defined, então você tem uma tag personalizada, que o exiftool não pode remover individualmente. Pela saída que você postou, provavelmente é esse o caso. Você pode usar exiftool para remover todos os metadados incorporados com
exiftool -All:All= <FileOrDir>

Você ainda pode ter problemas devido à forma como o exiftool edita os arquivos (veja opágina PDF do exiftool). Pode ser necessário relinear o arquivo para concluir o projeto. Isso pode ser feito comQPDFcom o comando
qpdf --linearize in.pdf out.pdf

informação relacionada