
我正在嘗試複製文本從 PDF 文件,但我得到的是垃圾。我正在 Ubuntu 上使用文件閱讀器來閱讀文件。這並不是說它不允許我複製,而是複製的文字看起來像這樣:
RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS
5XQDVURRW
LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!
$53+HDGHUDVVXPLQJ(WKHUQHW,3Y
GH¿QH$53B5(48(67
$535HTXHVW
GH¿QH$53B5(3/<
$535HSO\
W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH
XBLQWBWSW\SH
3URWRFRO7\SH
XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK
XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK
XBLQWBWRSHU
2SHUDWLRQ&RGH
XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV
XBFKDUVSD>@
6HQGHU,3DGGUHVV
XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV
XBFKDUWSD>@
7DUJHW,3DGGUHVV
我可以做什麼來解決這個問題?輸入大量資料將需要很長時間。
另外,順便說一句,貼上的文字在 gedit (Ubuntu) 上看起來像這樣:
(請注意,貼到這個問題時它看起來有所不同!)
我感覺這在某種程度上是一個編碼問題,但我不知道如何解決這個問題。
答案1
底層文字是亂碼。我認為@skub 認為這可能是故意的,這是正確的。獲取文字的一種方法是將每個頁面匯出為圖像(例如.jpg或者.png),然後使用掃描影像光學字元辨識軟體.我可以使用 Adobe Acrobat X 在 Windows 7 上對此進行測試;有效。
更新:
如果您的文件檢視器具有類似的功能,copy with formatting
請按預期複製文字。深入挖掘,我可以確認嵌入的字體全部有一個自訂編碼。