Wie kann man herausfinden, ob eine PDF-Datei Daten enthält, die innerhalb des Begrenzungsrahmens nicht sichtbar sind?

2024-6-15 • tag-icon

Wie kann man herausfinden, ob eine PDF-Datei Daten enthält, die innerhalb des Begrenzungsrahmens nicht sichtbar sind?

Ich füge einen kleinen Bereich einer großen Webseite in ein mit pdflatex kompiliertes Dokument ein (mit \includegraphics). Ein Rasterbild/Screenshot erzeugt beim Vergrößern Artefakte, daher speichere ich die Seite stattdessen mit dem Druckdialog des Browsers als PDF und schneide den benötigten Abschnitt zu.

$ pdfcrop --margins "-50 -65 -40 -400" full-page.pdf area.pdf

Dieses Werkzeug verändert den Begrenzungsrahmen und erzeugt die gewünschtevisuellAussehen. Aber die Datei behält den gesamten Inhalt des Originals.

$ ls -lh *.pdf
-rw-rw-r-- 1 user group 7.1M Apr 27 14:48 area.pdf
-rw------- 1 user group 7.1M Apr 27 14:02 full-page.pdf

Außerhalb des Begrenzungsrahmens sind persönliche Informationen enthalten, die ich nicht im zugeschnittenen PDF-Dokument enthalten möchte (Benutzernamen, Zeitstempel, IDs usw.). Wie kann ich bei einer Zeichenfolge aus ASCII-Klartext im Originaldokument, z. B. meinem Benutzernamen, feststellen, ob diese in der PDF-Datei vorhanden ist? Kann ich davon ausgehen, dass der ASCII-Text der Seite wörtlich enthalten ist, oder wird er in einer vektoriellen Form codiert?

Ich erwähne, dass die Datei aus einem Browser stammt, weil Browser ihre gedruckten PDFs intuitiv auf vorhersehbare Weise kodieren. Vielleicht ist es einfach, Bereiche auszuschneiden, wenn sie direkt dem DOM zugeordnet werden.

pdf2ps-Experiment

Ich habe das PDF ins PS-Format und zurück konvertiert (pdf2ps, gefolgt von ps2pdf) und dadurch die Dateigröße drastisch reduziert, aber ohne genau zu wissen, wie der Inhalt der Datei zu interpretieren ist oder was diese Konvertierungen beinhalten, kann ich nicht sicher sein, ob der Inhalt, den ich loswerden möchte, endgültig verschwunden, versteckt oder einfach räumlich neu optimiert bzw. komprimiert ist.

$ pdf2ps area.pdf && ps2pdf area.ps
$ ls -lh *.pdf
-rw-rw-r-- 1 user group 259K Apr 27 14:59 area.pdf
-rw------- 1 user group 7.1M Apr 27 14:02 full-page.pdf

Die erste Seite besteht hauptsächlich aus Schriftarten und Linien, mit Ausnahme einiger Symbole. Die Schriftarten sind jedoch CJK. Am Ende sieht alles in jedem Maßstab gut aus, daher scheinen Vektorpfade bei einer Konvertierung erhalten zu bleiben.

Bearbeiten: Umformulierung der Frage im Lichte einerähnliche Frageüber das Entfernen von Inhalten mit pdfcrop (ich hatte es bei meiner Suche übersehen, bevor ich hier geschrieben habe). Ich bin mehr daran interessiert, sicherzustellen, dass einige der Textdatennichtim PDF an dieser Stelle. Ich frage diese Community, weil ihre Benutzer mit dem Einbetten von Dokumenten dieser Art sowie mit den zugrunde liegenden Formaten vertraut sind.

pdf2ps-Experiment

verwandte Informationen