
PDF ドキュメントからベトナム語のテキストをコピーして Notepad++ (または他のツール) に貼り付けようとしていますが、何も機能しません。貼り付けたテキストがソース テキストと異なります。これを修正するには、どのような方法が最適ですか?
例えば:
ソーステキスト: (ソーステキストについてはスクリーンショットを参照)
貼り付けたテキスト: パパイヤサラダ ~ GÕi ñu ñû Tôm
本当にありがとう。
編集: ソースが Word 文書の場合は、期待どおりにコピーと貼り付けが実行されるようです。ここで問題となるのは PDF です。
答え1
これは、PDF で使用されるエンコーディングが任意であるためです。
からベトナム語のPDF インターネットで見つけた
「エンコーディング:カスタム「」はおそらく、この PDF を作成したプログラムが独自の都合で作成した (一見ランダムな) エンコードを意味します。
「埋め込みサブセット「プログラムはこのフォントから大量の文字を必要としなかったので、必要な文字をいくつか選択し、それらを一見ランダムな順序(おそらくプログラムがテキスト内でそれらの文字に遭遇した順序)で並べ、新しく発明されたエンコーディングはこの順序に基づいている」という意味です。
それは実際には「キャラクター」ではありません。 基本的に、PDF には「どの文字」が含まれているかという普遍的に意味のある情報はもうありません。インデックス付きの一連の図形と、それらのインデックス付き図形を表示する位置とサイズのリストがあるだけです。
ウィキペディアによれば
CID キー付きフォントは、Identity-H (横書き用) や Identity-V (縦書き用) などの「アイデンティティ」エンコーディングを使用することで、文字コレクションを参照せずに作成できます。このようなフォントはそれぞれ固有の文字セットを持つ場合があり、このような場合、グリフの CID 番号は役に立ちません。通常は代わりに Unicode エンコーディングが使用され、補足情報が含まれる場合もあります。
したがって、たとえば UTF-16 BE エンコーディングで意味があるかどうかを確認してみるとよいでしょう。
答え2
私にとってはうまく機能する解決策を見つけましたが、その理由は説明できません。PDF を Acrobat で開くと、ベトナム語の文字をコピーして貼り付けることができませんでした。ただし、Mac のプレビュー アプリ バージョン (バージョン 5.5.3 (719.31) を使用) で PDF を開くと、問題なくコピーして貼り付けることができました。