私はいくつかのPDF文書を持っています(例えばこれです) は、標準的な中国語の表意文字を使用して書かれているように見えますが、テキストを抽出すると、Unicode の補足私的使用領域の文字を使用してエンコードされていることがわかります。
私用文字を適切な CJK 文字にマッピングする信頼できる方法はありますか?
答え1
大まかな流れはおそらく
- PDFからフォントを抽出する
- フォントを既知のさまざまなエンコーディングと比較して、それがどれかであるかどうかを確認してください。
- あるいは、実際に個人的に使用されているものかもしれない
- エンコードがわかっている場合は変換表をチェックして逆の関係を解決し、そうでない場合はPDFから抽出したフォントから作業します。