最新の TeXes による Unicode の取り扱い

Question

これは単に Stack Overflow に投稿された回答のコピーです。台座は次のように書いている:

第 3 章の PDF リファレンスでは、Unicode について次のように述べられています。

テキスト文字列は、PDFDocEncoding または Unicode 文字エンコードのいずれかでエンコードされます。PDFDocEncoding は ISO Latin 1 エンコードのスーパーセットで、付録 D に記載されています。Unicode は、Unicode コンソーシアムの Unicode 標準で説明されています (参考文献を参照)。Unicode でエンコードされたテキスト文字列の場合、最初の 2 バイトは 254 で、その後に 255 が続く必要があります。これらの 2 バイトは、Unicode バイトオーダーマーカー U+FEFF を表し、文字列が Unicode 標準で指定された UTF-16BE (ビッグエンディアン) エンコード方式でエンコードされていることを示します (このメカニズムにより、PDFDocEncoding を使用して文字列を 2 文字 thorn ydieresis で開始することができなくなります。この文字は、単語または句の有意義な始まりとは考えられません)。

したがって、質問 1 の答えは、たとえそれがかつては真実であったとしても、現在は真実ではない、ということです。したがって、質問 2 は的外れです (北米の読者にとっては「無意味」)。

Answer 1

これは単に Stack Overflow に投稿された回答のコピーです。台座は次のように書いている:

第 3 章の PDF リファレンスでは、Unicode について次のように述べられています。

テキスト文字列は、PDFDocEncoding または Unicode 文字エンコードのいずれかでエンコードされます。PDFDocEncoding は ISO Latin 1 エンコードのスーパーセットで、付録 D に記載されています。Unicode は、Unicode コンソーシアムの Unicode 標準で説明されています (参考文献を参照)。Unicode でエンコードされたテキスト文字列の場合、最初の 2 バイトは 254 で、その後に 255 が続く必要があります。これらの 2 バイトは、Unicode バイトオーダーマーカー U+FEFF を表し、文字列が Unicode 標準で指定された UTF-16BE (ビッグエンディアン) エンコード方式でエンコードされていることを示します (このメカニズムにより、PDFDocEncoding を使用して文字列を 2 文字 thorn ydieresis で開始することができなくなります。この文字は、単語または句の有意義な始まりとは考えられません)。

したがって、質問 1 の答えは、たとえそれがかつては真実であったとしても、現在は真実ではない、ということです。したがって、質問 2 は的外れです (北米の読者にとっては「無意味」)。

最新の TeXes による Unicode の取り扱い

答え1

関連情報