PDF からベトナム語の文字を切り取って貼り付ける

Question 1

これは、PDF で使用されるエンコーディングが任意であるためです。

Acrobat ファイルのプロパティ

_{からベトナム語のPDF インターネットで見つけた}

「エンコーディング:カスタム「」はおそらく、この PDF を作成したプログラムが独自の都合で作成した (一見ランダムな) エンコードを意味します。

「埋め込みサブセット「プログラムはこのフォントから大量の文字を必要としなかったので、必要な文字をいくつか選択し、それらを一見ランダムな順序（おそらくプログラムがテキスト内でそれらの文字に遭遇した順序）で並べ、新しく発明されたエンコーディングはこの順序に基づいている」という意味です。

それは実際には「キャラクター」ではありません。 基本的に、PDF には「どの文字」が含まれているかという普遍的に意味のある情報はもうありません。インデックス付きの一連の図形と、それらのインデックス付き図形を表示する位置とサイズのリストがあるだけです。

ウィキペディアによれば

CID キー付きフォントは、Identity-H (横書き用) や Identity-V (縦書き用) などの「アイデンティティ」エンコーディングを使用することで、文字コレクションを参照せずに作成できます。このようなフォントはそれぞれ固有の文字セットを持つ場合があり、このような場合、グリフの CID 番号は役に立ちません。通常は代わりに Unicode エンコーディングが使用され、補足情報が含まれる場合もあります。

したがって、たとえば UTF-16 BE エンコーディングで意味があるかどうかを確認してみるとよいでしょう。

Answer