Como são determinados os nomes dos glifos (caracteres) nos arquivos PDF?

Como são determinados os nomes dos glifos (caracteres) nos arquivos PDF?

Arquivos PDF fazem uso interno de glifonomes. Por exemplo, o nome de ( U+2248; TeX \approx) que aparece em um arquivo PDF pode ser approxequal.

Pode-se encontrar esses nomes em um arquivo PDF gerado pelo TeX por

  1. compilando o código TeX com \pdfcompresslevel=0,
  2. inspecionar o arquivo PDF resultante como um arquivo de texto e
  3. procurando linhas começando com /CharSet.

(informações retiradas deResposta de Ulrike Fischerem outro lugar, que fornece mais informações).

Aparentemente, os nomes dos glifos dependem da fonte. Então eles são determinados pelas fontes? Todos os formatos de fonte usam esses nomes? Quais formatos de fonte usam nomes textuais? Todos os glifos em todos os arquivos PDF têm esses nomes?

Como são determinados os nomes dos glifos nos arquivos PDF?Quem determinou os existentes?Para que servem?(Por que o PDF não se refere aos glifos por número? Claramente, alguns leitores estão confiando nos nomes dos glifos (veja o link para a pergunta sobre a detecção de hiperlinks abaixo), então o formato PDF ou alguns leitores fazemalgunssuposições sobre esses nomes. Deve haver uma razão pela qual um intermediário de nomes é usado. Talvez isso tenha a ver com a era do Unicode em relação ao PDF.) O que mais um usuário do (La)TeX pode saber sobre esse assunto?

Para mim, a questão dos nomes dos glifos em PDF surgiu aqui:

Uma pergunta semelhante éComo encontrar o nome do glifo adequado exigido por \pdfglyphtounicode, mas há mais terreno que precisa ser abordado neste tópico.

Responder1

Entendo que os nomes dos glifos são determinados pela fonte. (observe o uso do termo "glifo"; caracteres e glifos estão relacionados, mas não são intercambiáveis. mas isso é outra história.)

também entendo que os nomes fornecidos pela fonte dependem do fornecedor da fonte - eles podem ser "significativos" de alguma forma (por exemplo, uma letra ascii, um unicode, um nome descritivo, ...) ou podem ser apenas um código interno do fornecedor, como acontecia na época do tipo metálico (conforme mostrado nas antigas listagens de símbolos técnicos de monotipia).

as coisas podem mudar, mas... não prenda a respiração.

acrescentando ao que Ulrike disse, o Unicode também usa nomes e números. um ponto importante (mas possivelmente irrelevante) aqui é que, uma vez atribuídos um nome e um número,eles nunca são alterados, mesmo que o nome esteja errado ou apenas imprudente.

um segundo ponto é que alguns glifos sãonãonecessariamente nomeado por um único unicode exclusivo. um unicode deve definirsignificado, não forma. Glifos "variantes" (com o mesmo significado, mas formato diferente) podem ser representados por vários unicodes, de duas maneiras principais:

  • usando um diacrítico combinado, como \nvarleqé um composto de \leq(U+2264) e U+20D2, "combinando sobreposição vertical longa"; quase nenhuma relação negada por um cancelamento vertical é representada por unicodes únicos e, a menos que os princípios básicos da atribuição de unicode mudem, isso continuará sendo a norma.

  • adicionando um "seletor de variação" definido (U+FE00) para designarreconhecido(ou seja, oficialmente por Unicode) variantes que não podem ser modificadas pela adição de um diacrítico combinado, como \lvertneqq(menor que, mas não igual a com negação vertical apenas do sinal de igual, U+2268,U+FE00).

relatório técnico unicode nº 25,suporte unicode para matemática, trata desses métodos nas seções 2.17 e 2.18 (páginas 26 e seguintes).

informação relacionada