複数のフォーラムで、PDF ブックのメタデータのユニバーサル PDF 部分が不正な形式になっており、そこから読み取ろうとするとエラーが発生するという記事を読みました。PDF から特定のキーと値を削除するにはどうすればよいでしょうか。また、それによってデータが破損するでしょうか。
これがデータです
File Type : PDF
File Type Extension : pdf
MIME Type : application/pdf
PDF Version : 1.6
Linearized : No
Universal : PDF
The : process
Code Mantra : Acrobat
Author : ModDate
LLC : http://www.codemantra.com
Create Date : 2004:08:26 09:42:01+05:30
EBX PUBLISHER : University of Toronto Press
Page Layout : SinglePage
Page Count : 419
Page Mode : UseOutlines
Has XFA : No
XMP Toolkit : 3.1-702
Code Mantra 002 C0020 LLC : http://www.codemantra.com
Universal 0020 PDF : The process that creates this PDF constitutes a trade secret of codeMantra, LLC and is protected by the copyright laws of the United States
Modify Date : 2012:09:11 15:27:50+05:30
Metadata Date : 2012:09:11 15:27:50+05:30
Creator Tool : Acrobat 5.0 Paper Capture Plug-in for Windows
Document ID : uuid:ccee9833-967a-4d92-b5fa-12faa7d620c4
Instance ID : uuid:51e5148e-3afa-45df-82b8-26d43c7e6ffc
Format : application/pdf
Title :
Creator : .
ご協力いただければ幸いです
答え1
この回答では、exiftool を使用することを前提としています。PDF の場合、特にすべての項目を削除するのではなく、個々の項目をターゲットにしたい場合には、おそらく他のツールの方が適しているでしょう。
まず、タグ名を決定する必要があります(exiftool よくある質問 #2)。表示される出力には、タグ名ではなく、タグの説明がリストされます。このコマンドを実行すると、タグが名前別にリストされます。
exiftool -s File.PDF
削除するタグ名を取得したら、コマンドは次のようになります。
exiftool -TAG= <FileOrDir>
そのコマンドで複数のタグをクリアし、複数のファイルとディレクトリを一覧表示できます。
のようなエラーが発生した場合Warning: Tag 'xxx' is not defined
、exiftoolでは個別に削除できないカスタムタグがあります。投稿した出力から判断すると、おそらくこれが原因です。exiftoolを使用して、埋め込まれたメタデータをすべて削除できます。
exiftool -All:All= <FileOrDir>
exiftoolがファイルを編集する方法により、まだ問題が発生する可能性があります(exiftool PDFページプロジェクトを完了するには、ファイルを再度線形化する必要があるかもしれません。これは次のように行うことができます。翻訳コマンドで
qpdf --linearize in.pdf out.pdf