¿Qué significa %öäüß en la segunda línea de los archivos PDF?

¿Qué significa %öäüß en la segunda línea de los archivos PDF?

Si veo un archivo PDF en un editor hexadecimal, veo estas 2 primeras líneas:

%PDF-1.6  
%öäüß

La primera línea, como se explica en elEspecificaciones, es el número de versión del PDF.

¿Cuál es el significado de la segunda línea? No pude encontrarlo en las especificaciones.

Respuesta1

En los archivos PDF %comienza un comentario, por lo que es solo una cadena inútil. Muchos generadores de PDF lo utilizan paraevitar que el archivo se estropeepor programas con errores

¿Pero cómo? Algunas aplicaciones comprueban heurísticamente si un archivo es de texto o binario comprobando los primeros bloques de datos (normalmente 512, 1024 o 2048 bytes) y miden el porcentaje de caracteres no imprimibles o no válidos. Algunos otros no lo sonlimpio de 8 bits. Por lo tanto, se recomienda colocar al menos 4 bytes con valores superiores a 127 en los primeros 512 bytes para obligar a esas aplicaciones a reconocer el archivo como binario. De lo contrario, suceden cosas malas como convertir entre CRLF y LF, truncar los bits superiores o eliminar secuencias de bytes UTF-8 no válidas (si el archivo fue reconocido como texto UTF-8)

Lo que sigue son algunos caracteres ASCII que utilizan caracteres no imprimibles (tenga en cuenta los puntos '.'), que generalmente están ahí para indicar a algunos de los productos de software que el archivo contiene datos binarios y no deben tratarse como ASCII de 7 bits. texto

https://resources.infosecinstitute.com/pdf-file-format-basic-structure/#gref

De hecho, es recomendado por el estándar PDF.

Nota: Si un archivo PDF contiene datos binarios, como ocurre con la mayoría (consulte la Sección 3.1, “Convenciones léxicas”), se recomienda que la línea del encabezado esté seguida inmediatamente por una línea de comentario que contenga al menos cuatro caracteres binarios, es decir, caracteres cuyos códigos sean 128 o más. Esto garantiza el comportamiento adecuado de las aplicaciones de transferencia de archivos que inspeccionan los datos cerca del comienzo de un archivo para determinar si deben tratar el contenido del archivo como texto o como binario.

https://www.adobe.com/content/dam/acom/en/devnet/acrobat/pdfs/pdf_reference_1-7.pdf

Si un archivo PDF contiene datos binarios, como ocurre con la mayoría (consulte 7.2, Convenciones léxicas"), la línea de encabezado deberá ir seguida inmediatamente por una línea de comentario que contenga al menos cuatro caracteres binarios, es decir, caracteres cuyos códigos sean 128 o más. garantiza el comportamiento adecuado de las aplicaciones de transferencia de archivos que inspeccionan los datos cerca del comienzo de un archivo para determinar si deben tratar el contenido del archivo como texto o como binario.

https://www.adobe.com/content/dam/acom/en/devnet/pdf/pdfs/PDF32000_2008.pdf

Algunas fuentes sobre PDF que he leído dicen que algunos programas todavía no están convencidos de que el archivo sea binario sin cero bytes, pero desafortunadamente no se pueden incrustar ceros en los comentarios del PDF. No puedo encontrarlos ahora así que los citaré más tarde.

información relacionada