Manipulação moderna de TeXes de Unicode

Manipulação moderna de TeXes de Unicode

Posso estar mal informado, mas aproximadamente:

  1. Ainda é verdade que o PDF é, em princípio, capaz de usar apenas vetores de codificação de 8 bits?
  2. Caso contrário, como o LuaTeX/XeTeX lida com conjuntos de glifos maiores?

Responder1

Esta é simplesmente uma cópia de uma resposta publicada no Stack Overflow.pedestal escreve o seguinte:

Na referência do PDF no capítulo 3, isto é o que dizem sobre Unicode:

As sequências de texto são codificadas em codificação de caracteres PDFDocEncoding ou Unicode. PDFDocEncoding é um superconjunto da codificação ISO Latin 1 e está documentado no Apêndice D. Unicode é descrito no Padrão Unicode pelo Unicode Consortium (consulte a Bibliografia). Para strings de texto codificadas em Unicode, os primeiros dois bytes devem ser 254 seguidos de 255. Esses dois bytes representam o marcador de ordem de bytes Unicode, U+FEFF, indicando que a string está codificada no esquema de codificação UTF-16BE (big-endian). especificado no padrão Unicode. (Esse mecanismo impede o início de uma string usando PDFDocEncoding com os dois caracteres thorn ydieresis, o que provavelmente não será um início significativo de uma palavra ou frase).

Portanto, a resposta à questão 1 é que isso não é verdade agora, mesmo que tenha sido verdade em algum momento. Segue-se que a questão 2 não vem ao caso (“discutível” para leitores na América do Norte).

informação relacionada