最新の TeXes による Unicode の取り扱い

最新の TeXes による Unicode の取り扱い

誤解しているだけかもしれませんが、大まかに言うと次のようになります。

  1. PDF は原則として 8 ビットのエンコーディング ベクトルしか使用できないというのは依然として本当ですか?
  2. そうでない場合、LuaTeX/XeTeX はより大きなグリフ セットをどのように処理しますか?

答え1

これは単に Stack Overflow に投稿された回答のコピーです。台座は次のように書いている:

第 3 章の PDF リファレンスでは、Unicode について次のように述べられています。

テキスト文字列は、PDFDocEncoding または Unicode 文字エンコードのいずれかでエンコードされます。PDFDocEncoding は ISO Latin 1 エンコードのスーパーセットで、付録 D に記載されています。Unicode は、Unicode コンソーシアムの Unicode 標準で説明されています (参考文献を参照)。Unicode でエンコードされたテキスト文字列の場合、最初の 2 バイトは 254 で、その後に 255 が続く必要があります。これらの 2 バイトは、Unicode バイト オーダー マーカー U+FEFF を表し、文字列が Unicode 標準で指定された UTF-16BE (ビッグ エンディアン) エンコード方式でエンコードされていることを示します (このメカニズムにより、PDFDocEncoding を使用して文字列を 2 文字 thorn ydieresis で開始することができなくなります。この文字は、単語または句の有意義な始まりとは考えられません)。

したがって、質問 1 の答えは、たとえそれがかつては真実であったとしても、現在は真実ではない、ということです。したがって、質問 2 は的外れです (北米の読者にとっては「無意味」)。

関連情報