Современная обработка Unicode в TeXes

Современная обработка Unicode в TeXes

Я могу быть дезинформирован, но примерно так:

  1. Верно ли, что PDF в принципе может использовать только 8-битные векторы кодирования?
  2. Если нет, то как LuaTeX/XeTeX справляется с большими наборами глифов?

решение1

Это просто копия ответа, опубликованного на Stack Overflow.плинтус пишет следующее:

В справочном документе PDF в главе 3 говорится следующее о Unicode:

Текстовые строки кодируются в кодировке символов PDFDocEncoding или Unicode. PDFDocEncoding является надмножеством кодировки ISO Latin 1 и документирована в Приложении D. Unicode описан в стандарте Unicode Консорциумом Unicode (см. Библиографию). Для текстовых строк, закодированных в Unicode, первые два байта должны быть 254, за которыми следует 255. Эти два байта представляют маркер порядка байтов Unicode, U+FEFF, указывающий, что строка закодирована в схеме кодировки UTF-16BE (big-endian), указанной в стандарте Unicode. (Этот механизм исключает начало строки с использованием PDFDocEncoding с двух символов thorn ydieresis, что вряд ли будет значимым началом слова или фразы).

Следовательно, ответ на вопрос 1 заключается в том, что это не является правдой сейчас, даже если это было правдой когда-то. Из этого следует, что вопрос 2 не имеет значения ('спорный' для читателей в Северной Америке).

Связанный контент