PDF ファイル内のグリフ (文字) 名はどのように決定されるのでしょうか?

PDF ファイル内のグリフ (文字) 名はどのように決定されるのでしょうか?

PDFファイルは内部的にグリフを使用する名前たとえば、PDF ファイル内に表示される( U+2248; TeX ) の名前は次のようになります。\approxapproxequal

TeXで生成されたPDFファイルでは、次のような名前が見つかります。

  1. TeXコードをコンパイルすると\pdfcompresslevel=0
  2. 結果のPDFファイルをテキストファイルとして検査し、
  3. で始まる行を検索します/CharSet

(情報元:ウルリケ・フィッシャーの回答詳細は別の場所を参照してください。

どうやらグリフ名はフォントに依存しているようです。つまり、フォントによって決まるのでしょうか? すべてのフォント形式でこのような名前が使用されるのでしょうか? どのフォント形式でテキスト名が使用されるのでしょうか? すべての PDF ファイルのすべてのグリフにこのような名前が付けられているのでしょうか?

PDF ファイル内のグリフ名はどのように決定されるのでしょうか?既存のものを誰が決定したのですか?それらは何のため?(なぜPDFはグリフを番号で参照しないのでしょうか?明らかに一部の読者はグリフ名に頼っています(ハイパーリンク検出に関する質問へのリンクを参照)。そのため、PDF形式または一部の読者はいくつかのこれらの名前についての仮定。名前の中間物が使用される理由があるはずです。おそらくこれは、PDF に対する Unicode の時代と関係があるのでしょう。) (La)TeX のユーザーにとって、このトピックに関して他に知っておくべきことはありますか?

私の場合、PDF グリフ名の問題はここで発生しました。

同様の質問は\pdfglyphtounicode に必要な適切なグリフ名を見つける方法ただし、このトピックではさらに詳しく説明する必要がある領域があります。

答え1

私の理解では、グリフ名はフォントによって決まります。(「グリフ」という用語の使用に注意してください。文字とグリフは関連していますが、互換性はありません。しかし、それは別の話です。)

また、フォントによって提供される名前はフォントの供給元によって異なることも理解しています。それらは何らかの形で「意味がある」場合 (例: ASCII 文字、Unicode、説明的な名前など) もあれば、金属活字の時代のように供給元の内部コードにすぎない場合もあります (古いモノタイプの技術記号リストに示されているように)。

状況は変わるかもしれませんが...息を止めないでください。

ウルリケが言ったことに加えて、ユニコードは番号だけでなく名前も使用します。ここで重要な(しかしおそらく無関係な点ですが)のは、名前と番号の両方が割り当てられると、それらは決して変わらない名前が間違っていたり、単に無謀だったりする場合でも、それは変わりません。

2つ目のポイントは、いくつかのグリフがない必ず単一のユニークなユニコードで命名される。ユニコードは定義するはずである意味、形ではありません。「異体」グリフ(意味は同じだが形が異なる)は、主に次の 2 つの方法で複数の Unicode で表すことができます。

  • 結合発音区別符号を使用することにより、 (U+2264) と U+20D2\nvarleqの合成文字\leq「結合長垂直オーバーレイ」のように、垂直キャンセルによって否定される関係が単一の Unicode で表されることはほとんどなく、Unicode 割り当ての基本原則が変更されない限り、これが標準のままです。

  • 定義された「バリエーションセレクタ」(U+FE00)を追加して指定する認識された(つまり、Unicode によって正式に) 結合発音区別符号を追加しても変更できない変形。たとえば、\lvertneqq(等号のみの垂直否定による、より小さいが等しくない、U+2268、U+FE00)。

ユニコード技術レポート#25、数学のUnicodeサポートでは、セクション 2.17 と 2.18 (26 ページ以降) でこれらの方法を扱っています。

関連情報