Moderne TeXes-Behandlung von Unicode

Question

Dies ist lediglich eine Kopie einer auf Stack Overflow geposteten Antwort.Sockel schreibt folgendes:

In der PDF-Referenz in Kapitel 3 heißt es zu Unicode:

Textzeichenfolgen werden entweder in PDFDocEncoding oder Unicode kodiert. PDFDocEncoding ist eine Obermenge der ISO Latin 1-Kodierung und ist in Anhang D dokumentiert. Unicode wird im Unicode-Standard des Unicode-Konsortiums beschrieben (siehe Bibliographie). Bei in Unicode kodierten Textzeichenfolgen müssen die ersten beiden Bytes 254 gefolgt von 255 sein. Diese beiden Bytes stellen den Unicode-Bytereihenfolgemarker U+FEFF dar, der angibt, dass die Zeichenfolge im im Unicode-Standard angegebenen Kodierungsschema UTF-16BE (Big Endian) kodiert ist. (Dieser Mechanismus verhindert, dass eine Zeichenfolge mit PDFDocEncoding mit den beiden Zeichen thorn ydierese beginnt, was wahrscheinlich kein sinnvoller Anfang eines Wortes oder einer Phrase ist).

Daher lautet die Antwort auf Frage 1, dass dies jetzt nicht mehr zutrifft, selbst wenn es einmal zutraf. Daraus folgt, dass Frage 2 nebensächlich ist (für Leser in Nordamerika „umstritten“).

Answer 1

Dies ist lediglich eine Kopie einer auf Stack Overflow geposteten Antwort.Sockel schreibt folgendes:

In der PDF-Referenz in Kapitel 3 heißt es zu Unicode:

Textzeichenfolgen werden entweder in PDFDocEncoding oder Unicode kodiert. PDFDocEncoding ist eine Obermenge der ISO Latin 1-Kodierung und ist in Anhang D dokumentiert. Unicode wird im Unicode-Standard des Unicode-Konsortiums beschrieben (siehe Bibliographie). Bei in Unicode kodierten Textzeichenfolgen müssen die ersten beiden Bytes 254 gefolgt von 255 sein. Diese beiden Bytes stellen den Unicode-Bytereihenfolgemarker U+FEFF dar, der angibt, dass die Zeichenfolge im im Unicode-Standard angegebenen Kodierungsschema UTF-16BE (Big Endian) kodiert ist. (Dieser Mechanismus verhindert, dass eine Zeichenfolge mit PDFDocEncoding mit den beiden Zeichen thorn ydierese beginnt, was wahrscheinlich kein sinnvoller Anfang eines Wortes oder einer Phrase ist).

Daher lautet die Antwort auf Frage 1, dass dies jetzt nicht mehr zutrifft, selbst wenn es einmal zutraf. Daraus folgt, dass Frage 2 nebensächlich ist (für Leser in Nordamerika „umstritten“).

Moderne TeXes-Behandlung von Unicode

Antwort1

verwandte Informationen