Как узнать, есть ли в PDF-файле данные, которые не видны внутри ограничивающей рамки?

2024-6-16 • tag-icon

Как узнать, есть ли в PDF-файле данные, которые не видны внутри ограничивающей рамки?

Я встраиваю небольшую область большой веб-страницы в документ, скомпилированный с помощью pdflatex (используя \includegraphics). Растровое изображение / снимок экрана создает артефакты при увеличении, поэтому вместо этого я сохраняю страницу как PDF с помощью диалогового окна печати браузера и обрезаю нужный мне раздел.

$ pdfcrop --margins "-50 -65 -40 -400" full-page.pdf area.pdf

Этот инструмент изменяет ограничивающую рамку и создает желаемый результат.визуальныйвнешний вид. Но файл сохраняет все содержимое оригинала.

$ ls -lh *.pdf
-rw-rw-r-- 1 user group 7.1M Apr 27 14:48 area.pdf
-rw------- 1 user group 7.1M Apr 27 14:02 full-page.pdf

За пределами ограничивающей рамки содержится личная информация, которую я хотел бы убедиться, что ее нет в обрезанном PDF-файле (имена пользователей, временные метки, идентификаторы и т. д.). Если в исходном документе есть строка открытого текста ascii, например, мое имя пользователя, как мне узнать, присутствует ли она в PDF-файле? Могу ли я ожидать, что текст ascii на странице будет содержаться буквально или он будет закодирован в какой-то векторной форме?

Я упоминаю, что файл поступает из браузера, поскольку интуитивно понятно, что браузеры могут кодировать свои распечатанные PDF-файлы предсказуемым образом, возможно, будет проще обрезать области, если они напрямую отображаются в DOM.

эксперимент pdf2ps

Я преобразовал PDF в PS и обратно (pdf2ps, а затем ps2pdf), и это значительно сократило размер файла, но, не зная точно, как интерпретировать содержимое файла или что задействовано в этих преобразованиях, я не могу быть уверен, исчезло ли содержимое, от которого я хочу избавиться, скрыто или просто пространственно повторно оптимизировано/сжато.

$ pdf2ps area.pdf && ps2pdf area.ps
$ ls -lh *.pdf
-rw-rw-r-- 1 user group 259K Apr 27 14:59 area.pdf
-rw------- 1 user group 7.1M Apr 27 14:02 full-page.pdf

Начальная страница в основном состоит из шрифтов и линий, за исключением нескольких иконок. Шрифты, однако, CJK. В конечном итоге все выглядит хорошо в любом масштабе, так что, похоже, векторные пути сохраняются с помощью преобразования.

Редактировать: Перефразируя вопрос в светеаналогичный вопросо разделении контента с помощью pdfcrop (я пропустил это в своем поиске, прежде чем написать сюда). Я больше заинтересован в том, чтобы гарантировать, что некоторые текстовые данныенетв pdf на данном этапе. Я спрашиваю это сообщество, поскольку его пользователи знакомы с внедрением документов такого рода, а также с используемыми базовыми форматами.

эксперимент pdf2ps

Связанный контент