如何從使用補充私人使用字元的 PDF 中取得 CJK Unicode 字元?

如何從使用補充私人使用字元的 PDF 中取得 CJK Unicode 字元?

我有幾個 PDF 文件(例如這個)似乎是使用標準中文表意文字編寫的,但是當我提取文字時,結果發現它是使用 Unicode 補充私人使用區域中的字元進行編碼的。

有沒有可靠的方法將私人使用字元對應回適當的 CJK 字元?

答案1

一般流程大概是

  • 從 PDF 提取字體
  • 嘗試將字體與不同的已知編碼進行比較,看看它是否是其中任何一個
  • 或者它可能是實際私人使用的東西
  • 如果知道它是什麼編碼,則透過檢查轉換表來計算反向關係,否則使用從 pdf 中提取的字體進行工作

相關內容