我試圖從 PDF 複製文本,但得到的是垃圾訊息

我試圖從 PDF 複製文本,但得到的是垃圾訊息

我正在嘗試複製文本從 PDF 文件,但我得到的是垃圾。我正在 Ubuntu 上使用文件閱讀器來閱讀文件。這並不是說它不允許我複製,而是複製的文字看起來像這樣:

RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS    

5XQDVURRW

LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!

$53+HDGHUDVVXPLQJ(WKHUQHW,3Y

GH¿QH$53B5(48(67
$535HTXHVW

GH¿QH$53B5(3/<
$535HSO\

W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH

XBLQWBWSW\SH
3URWRFRO7\SH

XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK

XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK

XBLQWBWRSHU
2SHUDWLRQ&RGH

XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV

XBFKDUVSD>@
6HQGHU,3DGGUHVV

XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV

XBFKDUWSD>@
7DUJHW,3DGGUHVV

我可以做什麼來解決這個問題?輸入大量資料將需要很長時間。

另外,順便說一句,貼上的文字在 gedit (Ubuntu) 上看起來像這樣:

在我的系統上 (請注意,貼到這個問題時它看起來有所不同!)

我感覺這在某種程度上是一個編碼問題,但我不知道如何解決這個問題。

答案1

底層文字是亂碼。我認為@skub 認為這可能是故意的,這是正確的。獲取文字的一種方法是將每個頁面匯出為圖像(例如.jpg或者.png),然後使用掃描影像光學字元辨識軟體.我可以使用 Adob​​e Acrobat X 在 Windows 7 上對此進行測試;有效。

更新:

如果您的文件檢視器具有類似的功能,copy with formatting請按預期複製文字。深入挖掘,我可以確認嵌入的字體全部有一個自訂編碼

相關內容