PDF ファイルに境界ボックス内に表示されないデータがあるかどうかを確認する方法を教えてください。

2024-6-15 • tag-icon

PDF ファイルに境界ボックス内に表示されないデータがあるかどうかを確認する方法を教えてください。

大きな Web ページの小さな領域を pdflatex ( を使用) でコンパイルされたドキュメントに埋め込んでいます\includegraphics。ラスターイメージ/スクリーンショットでは、ズームインするとアーティファクトが生成されるため、代わりにブラウザーの印刷ダイアログを使用してページを PDF として保存し、必要なセクションを切り取っています。

$ pdfcrop --margins "-50 -65 -40 -400" full-page.pdf area.pdf

このツールは境界ボックスを変更し、希望するビジュアル外観は異なりますが、ファイルは元のファイルの内容をすべて保持します。

$ ls -lh *.pdf
-rw-rw-r-- 1 user group 7.1M Apr 27 14:48 area.pdf
-rw------- 1 user group 7.1M Apr 27 14:02 full-page.pdf

境界ボックスの外側に個人情報が含まれているため、切り取られた PDF には含まれないようにしたいです (ユーザー名、タイムスタンプ、ID など)。元のドキュメントに ASCII プレーンテキストの文字列 (ユーザー名など) がある場合、それが PDF に存在するかどうかをどのように確認すればよいでしょうか。ページの ASCII テキストが文字通りに含まれていると予想できますか、それとも何らかのベクトル形式でエンコードされますか?

ファイルがブラウザからのものであると言及したのは、直感的に、ブラウザは印刷された PDF を予測可能な方法でエンコードする可能性があるためです。DOM に直接マップすると、領域を切り取るのが容易になる可能性があります。

pdf2ps実験

私は PDF を PS に変換し、その逆 (pdf2ps、その後 ps2pdf) しました。これにより、ファイルサイズは大幅に削減されましたが、ファイルの内容を正確に解釈する方法や、これらの変換に何が関係しているかがわからないため、削除したいコンテンツが最終的に削除されたのか、非表示になったのか、それとも単に空間的に再最適化/圧縮されただけなのかはわかりません。

$ pdf2ps area.pdf && ps2pdf area.ps
$ ls -lh *.pdf
-rw-rw-r-- 1 user group 259K Apr 27 14:59 area.pdf
-rw------- 1 user group 7.1M Apr 27 14:02 full-page.pdf

最初のページは、いくつかのアイコンを除いて、ほとんどがフォントと線です。ただし、フォントは CJK です。最終的には、どのスケールでもすべてが適切に表示されるため、ベクターパスは変換によって保持されるようです。

編集: 質問の言い換え同様の質問pdfcropでコンテンツを削除することについて（ここに書く前に検索したときに見逃していました）。私はテキストデータの一部がないこの時点では、PDF には存在しません。このコミュニティに質問しているのは、このコミュニティのユーザーが、この種のドキュメントの埋め込みや、関連する基礎となる形式に精通しているからです。

pdf2ps実験

関連情報