從 PDF 中剪下並貼上越南語字符

Question 1

這是因為 PDF 中使用的編碼是任意的。

Acrobat 檔案屬性

」編碼：自訂「可能是指由產生此 PDF 的程序為了方便起見而進行的（看似隨機的）編碼。

」嵌入子集「意味著程式不需要這種字體中的大量字符，因此它只是選擇了需要的幾個字符，並以看似隨機的順序排列它們（可能是程式在文字中遇到它們的順序），並且新發明的編碼是基於在此訂購。

它並不是真正的「角色」。 基本上，PDF 不再包含任何有關「哪個字元」的具有普遍意義的資訊。它只有一組帶有索引的形狀以及顯示這些帶有索引的形狀的位置和大小的清單。

維基百科說

可以透過使用「身分」編碼（例如 Identity-H（用於水平書寫）或 Identity-V（用於垂直書寫））來製作 CID 鍵控字體，而無需參考字元集合。此類字體可能各自具有唯一的字元集，在這種情況下，字形的 CID 編號並未提供資訊；通常使用 Unicode 編碼來代替，並可能帶有補充資訊。

因此，您可能會嘗試看看它對於 UTF-16 BE 編碼是否有意義。

Answer