從 PDF 中剪下並貼上越南語字符

從 PDF 中剪下並貼上越南語字符

我正在嘗試將一堆越南文字從 PDF 文件複製/貼上到 Notepad++(或任何其他內容,但沒有任何效果)。貼上的文字與原始文字不同。解決這個問題的最佳方法是什麼?

例如:

來源文字:(來源文字請參見螢幕截圖) 在此輸入影像描述

貼文:木瓜沙拉 ~ GÕi ñu ñû Tôm

非常感謝。

編輯:看來如果來源是 Word 文檔,它會如預期複製和貼上。 PDF就是這裡的問題。

答案1

這是因為 PDF 中使用的編碼是任意的。

Acrobat 檔案屬性

一些越南語 PDF 我在管間發現

編碼:自訂「 可能是指由產生此 PDF 的程序為了方便起見而進行的(看似隨機的)編碼。

嵌入子集「意味著程式不需要這種字體中的大量字符,因此它只是選擇了需要的幾個字符,並以看似隨機的順序排列它們(可能是程式在文字中遇到它們的順序),並且新發明的編碼是基於在此訂購。

它並不是真正的「角色」。 基本上,PDF 不再包含任何有關「哪個字元」的具有普遍意義的資訊。它只有一組帶有索引的形狀以及顯示這些帶有索引的形狀的位置和大小的清單。


維基百科說

可以透過使用「身分」編碼(例如 Identity-H(用於水平書寫)或 Identity-V(用於垂直書寫))來製作 CID 鍵控字體,而無需參考字元集合。此類字體可能各自具有唯一的字元集,在這種情況下,字形的 CID 編號並未提供資訊;通常使用 Unicode 編碼來代替,並可能帶有補充資訊。

因此,您可能會嘗試看看它對於 UTF-16 BE 編碼是否有意義。

答案2

我找到了一個對我有用的解決方案 - 儘管無法解釋原因。當我在 Acrobat 中開啟 PDF 時,無法複製和貼上越南語字元。但是,如果我在 Mac 上的預覽應用程式版本(我有版本 5.5.3 (719.31))中開啟 PDF,我可以毫無問題地複製和貼上。

相關內容