¿Cómo saber si un archivo PDF tiene datos no visibles dentro del cuadro delimitador?

2024-6-15 • tag-icon

¿Cómo saber si un archivo PDF tiene datos no visibles dentro del cuadro delimitador?

Estoy incrustando un área pequeña de una página web grande en un documento compilado con pdflatex (usando \includegraphics). Una imagen rasterizada/captura de pantalla produce artefactos al hacer zoom, por lo que guardo la página como un PDF con el cuadro de diálogo de impresión del navegador y recorto la sección que necesito.

$ pdfcrop --margins "-50 -65 -40 -400" full-page.pdf area.pdf

Esta herramienta cambia el cuadro delimitador y produce el formato deseado.visualapariencia. Pero el archivo conserva todo el contenido del original.

$ ls -lh *.pdf
-rw-rw-r-- 1 user group 7.1M Apr 27 14:48 area.pdf
-rw------- 1 user group 7.1M Apr 27 14:02 full-page.pdf

Hay información personal contenida fuera del cuadro delimitador que me gustaría asegurar que no esté en el pdf recortado (nombres de usuario, marcas de tiempo, identificaciones, etc.). Dada una cadena de texto plano ASCII en el documento original, por ejemplo, mi nombre de usuario, ¿cómo puedo saber si está presente en el PDF? ¿Puedo esperar que el texto ascii de la página esté contenido literalmente o esté codificado en alguna forma vectorial?

Menciono que el archivo proviene de un navegador porque, intuitivamente, los navegadores pueden codificar sus archivos PDF impresos de una manera predecible, tal vez sea fácil recortar áreas si se asigna directamente al DOM.

experimento pdf2ps

Convertí el pdf a ps y viceversa (pdf2ps, seguido de ps2pdf) y eso redujo drásticamente el tamaño del archivo, pero sin saber exactamente cómo interpretar el contenido del archivo, o saber qué implican esas conversiones, puedo No estoy seguro de si el contenido del que quiero deshacerme finalmente desapareció, está oculto o simplemente se reoptimizó/comprimió espacialmente.

$ pdf2ps area.pdf && ps2pdf area.ps
$ ls -lh *.pdf
-rw-rw-r-- 1 user group 259K Apr 27 14:59 area.pdf
-rw------- 1 user group 7.1M Apr 27 14:02 full-page.pdf

La página inicial se compone principalmente de fuentes y líneas, con la excepción de algunos iconos. Sin embargo, las fuentes son CJK. Al final, todo se ve bien en cualquier escala, por lo que parece que las rutas vectoriales se conservan mediante una conversión.

Editar: Reformulación de la pregunta a la luz de unapregunta similarsobre cómo eliminar contenido con pdfcrop (me lo había perdido en mi búsqueda antes de escribir aquí). Estoy más interesado en asegurar que algunos de los datos de texto seannoen el pdf en este momento. Le pregunto a esta comunidad porque sus usuarios están familiarizados con la incrustación de documentos de este tipo, así como con los formatos subyacentes involucrados.

experimento pdf2ps

información relacionada