我試圖從 PDF 複製文本，但得到的是垃圾訊息

2024-7-12 • tag-icon

ubuntu pdf encoding

我試圖從 PDF 複製文本，但得到的是垃圾訊息

我正在嘗試複製文本從 PDF 文件，但我得到的是垃圾。我正在 Ubuntu 上使用文件閱讀器來閱讀文件。這並不是說它不允許我複製，而是複製的文字看起來像這樣：

RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS    

5XQDVURRW

LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!

$53+HDGHUDVVXPLQJ(WKHUQHW,3Y

GH¿QH$53B5(48(67
$535HTXHVW

GH¿QH$53B5(3/<
$535HSO\

W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH

XBLQWBWSW\SH
3URWRFRO7\SH

XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK

XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK

XBLQWBWRSHU
2SHUDWLRQ&RGH

XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV

XBFKDUVSD>@
6HQGHU,3DGGUHVV

XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV

XBFKDUWSD>@
7DUJHW,3DGGUHVV

我可以做什麼來解決這個問題？輸入大量資料將需要很長時間。

另外，順便說一句，貼上的文字在 gedit (Ubuntu) 上看起來像這樣：

在我的系統上（請注意，貼到這個問題時它看起來有所不同！）

我感覺這在某種程度上是一個編碼問題，但我不知道如何解決這個問題。

答案1

底層文字是亂碼。我認為@skub 認為這可能是故意的，這是正確的。獲取文字的一種方法是將每個頁面匯出為圖像（例如.jpg或者.png），然後使用掃描影像光學字元辨識軟體.我可以使用 Adobe Acrobat X 在 Windows 7 上對此進行測試；有效。

更新：

如果您的文件檢視器具有類似的功能，copy with formatting請按預期複製文字。深入挖掘，我可以確認嵌入的字體全部有一個自訂編碼。

相關內容