Moderne TeXes-Behandlung von Unicode

Moderne TeXes-Behandlung von Unicode

Vielleicht bin ich auch falsch informiert, aber ungefähr:

  1. Stimmt es immer noch, dass PDF prinzipiell nur 8-Bit-Kodierungsvektoren verwenden kann?
  2. Wenn nicht, wie handhaben LuaTeX/XeTeX größere Glyphensätze?

Antwort1

Dies ist lediglich eine Kopie einer auf Stack Overflow geposteten Antwort.Sockel schreibt folgendes:

In der PDF-Referenz in Kapitel 3 heißt es zu Unicode:

Textzeichenfolgen werden entweder in PDFDocEncoding oder Unicode kodiert. PDFDocEncoding ist eine Obermenge der ISO Latin 1-Kodierung und ist in Anhang D dokumentiert. Unicode wird im Unicode-Standard des Unicode-Konsortiums beschrieben (siehe Bibliographie). Bei in Unicode kodierten Textzeichenfolgen müssen die ersten beiden Bytes 254 gefolgt von 255 sein. Diese beiden Bytes stellen den Unicode-Bytereihenfolgemarker U+FEFF dar, der angibt, dass die Zeichenfolge im im Unicode-Standard angegebenen Kodierungsschema UTF-16BE (Big Endian) kodiert ist. (Dieser Mechanismus verhindert, dass eine Zeichenfolge mit PDFDocEncoding mit den beiden Zeichen thorn ydierese beginnt, was wahrscheinlich kein sinnvoller Anfang eines Wortes oder einer Phrase ist).

Daher lautet die Antwort auf Frage 1, dass dies jetzt nicht mehr zutrifft, selbst wenn es einmal zutraf. Daraus folgt, dass Frage 2 nebensächlich ist (für Leser in Nordamerika „umstritten“).

verwandte Informationen