Was bedeutet %öäüß in der 2. Zeile von PDF-Dateien?

Was bedeutet %öäüß in der 2. Zeile von PDF-Dateien?

Wenn ich eine PDF-Datei in einem Hex-Editor ansehe, sehe ich diese ersten beiden Zeilen:

%PDF-1.6  
%öäüß

Die erste Zeile, wie in derSpezifikation, ist die PDF-Versionsnummer.

Welche Bedeutung hat die zweite Zeile? Ich konnte sie in der Spezifikation nicht finden.

Antwort1

In PDF-Dateien %beginnt ein Kommentar, also ist das nur eine nutzlose Zeichenfolge. Viele PDF-Generatoren verwenden es, umVerhindern Sie, dass die Datei durcheinander gerätdurch fehlerhafte Programme

Aber wie? Einige Anwendungen prüfen heuristisch, ob eine Datei Text oder Binär ist, indem sie die ersten Datenblöcke (normalerweise 512, 1024 oder 2048 Bytes) prüfen und den Prozentsatz nicht druckbarer oder ungültiger Zeichen messen. Einige andere sind nicht8-Bit sauber. Daher wird empfohlen, mindestens 4 Bytes mit Werten über 127 in die ersten 512 Bytes zu setzen, um diese Apps zu zwingen, die Datei als binär zu erkennen. Andernfalls passieren schlimme Dinge wie die Konvertierung zwischen CRLF und LF, das Abschneiden der oberen Bits oder das Entfernen ungültiger UTF-8-Bytesequenzen (wenn die Datei als UTF-8-Text erkannt wurde).

Im Folgenden sind einige ASCII-Zeichen aufgeführt, die nicht druckbare Zeichen verwenden (beachten Sie die '.'-Punkte). Diese dienen normalerweise dazu, einigen Softwareprodukten mitzuteilen, dass die Datei Binärdaten enthält und nicht als 7-Bit-ASCII-Text behandelt werden sollte.

https://resources.infosecinstitute.com/pdf-file-format-basic-structure/#gref

Es wird tatsächlich vom PDF-Standard empfohlen

Notiz: Wenn eine PDF-Datei binäre Daten enthält, wie es in den meisten Fällen der Fall ist (siehe Abschnitt 3.1, „Lexikalische Konventionen“), wird empfohlen, dass der Kopfzeile unmittelbar eine Kommentarzeile folgt, die mindestens vier binäre Zeichen enthält, also Zeichen mit einem Code von 128 oder höher. Dadurch wird das ordnungsgemäße Verhalten von Dateiübertragungsanwendungen sichergestellt, die Daten am Anfang einer Datei prüfen, um zu bestimmen, ob der Inhalt der Datei als Text oder als binär zu behandeln ist.

https://www.adobe.com/content/dam/acom/en/devnet/acrobat/pdfs/pdf_reference_1-7.pdf

Wenn eine PDF-Datei binäre Daten enthält, wie es bei den meisten der Fall ist (siehe 7.2, „Lexikalische Konventionen“), muss der Kopfzeile unmittelbar eine Kommentarzeile folgen, die mindestens vier binäre Zeichen enthält, also Zeichen mit einem Code von 128 oder höher. Dadurch wird das ordnungsgemäße Verhalten von Dateiübertragungsanwendungen sichergestellt, die Daten am Anfang einer Datei prüfen, um zu bestimmen, ob der Inhalt der Datei als Text oder als binär zu behandeln ist.

https://www.adobe.com/content/dam/acom/en/devnet/pdf/pdfs/PDF32000_2008.pdf

Einige Quellen zu PDF, die ich gelesen habe, sagen, dass einige Programme immer noch nicht davon überzeugt sind, dass die Datei ohne Nullbytes binär ist, aber leider können Sie keine Nullen in PDF-Kommentare einbetten. Ich kann sie gerade nicht finden, also werde ich später zitieren

verwandte Informationen