如何找出 PDF 檔案是否包含在邊框內不可見的資料？

2024-6-16 • tag-icon

我將一個大網頁的一小部分嵌入到用 pdflatex 編譯的文檔中（使用\includegraphics）。光柵圖像/螢幕截圖在放大時會產生偽影，因此我使用瀏覽器的列印對話方塊將頁面儲存為 PDF，並裁剪我需要的部分。

$ pdfcrop --margins "-50 -65 -40 -400" full-page.pdf area.pdf

該工具更改邊界框，並產生所需的視覺的外貌。但該文件保留了原始文件的所有內容。

$ ls -lh *.pdf
-rw-rw-r-- 1 user group 7.1M Apr 27 14:48 area.pdf
-rw------- 1 user group 7.1M Apr 27 14:02 full-page.pdf

我想確保裁剪後的 pdf 中不包含邊界框外部的個人資訊（使用者名稱、時間戳記、id 等）。給定原始文件中的一串 ascii 純文本，例如我的用戶名，我將如何查找它是否存在於 PDF 中。我是否可以期望頁面中的 ascii 文字按字面意思包含，還是以某種向量形式編碼？

我提到該文件來自瀏覽器，因為直觀上，瀏覽器可能會以可預測的方式對其列印的 PDF 進行編碼，如果直接映射到 DOM，也許很容易剪切區域。

pdf2ps實驗

我已經將 pdf 轉換為 ps 並轉換回來（pdf2ps，然後是 ps2pdf），這確實大大減小了文件大小，但是如果不確切知道如何解釋文件的內容，或者不知道這些轉換涉及什麼，我可以不確定我想要刪除的內容是否最終消失、隱藏，或只是在空間上重新優化/壓縮。

$ pdf2ps area.pdf && ps2pdf area.ps
$ ls -lh *.pdf
-rw-rw-r-- 1 user group 259K Apr 27 14:59 area.pdf
-rw------- 1 user group 7.1M Apr 27 14:02 full-page.pdf

初始頁面主要是字體和線條，除了一些圖示。但字體是 CJK。最終一切在任何規模上看起來都很好，所以看起來向量路徑確實是透過轉換保留的。

編輯：根據a重新表述問題類似的問題關於使用 pdfcrop 剝離內容（在寫到這裡之前我在搜索中錯過了它）。我更感興趣的是確保某些文字資料是不是此時在pdf中。我詢問這個社區是因為它的用戶熟悉此類嵌入文件以及所涉及的底層格式。

pdf2ps實驗

相關內容