
可能的重複:
PDF複製貼上時出現亂碼
我正在讀一本PDF副本Jerome H. Friedman 的論文“數據挖掘和統計:有何關聯?”使用谷歌瀏覽器。
它包含一個有趣的引言,我想將其複製並貼上到我的部落格中。
我用滑鼠選擇引用的文本,然後按CTRL+C複製文本。該文件如下所示:
當我將文字貼到記事本、Stack Overflow 或其他任何地方時,該產品是類似 Wingdings 的亂碼:
➣✍❺❼⑤➭✸❸❊➁❥❸❊⑥▼❽❾❸✘➎✳❸❾② ❥⑤⑩⑨❘②❥ ⑤⑩❽❾⑤⑩✇➄⑥▼⑨❏✇➄⑥▼❺➌ ❥❸❊➁❷⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②③⑨✘⑤⑨② ➌⑨❹❸ ❊❸❊➍P⑨①②❥❻ ➎✳❸❏②❥➇▼✇▲②➟➇❚②❥❚✝ ❘②③✇▲②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥❦➇▼✇✞ ⑦❸❷❻➀➁ ↔⑨❹➇⑦❸❷➊❚➁❥⑤②❥❸✶⑨✇❨➂✜✞✝✳✍✍✍✍✶ ♣❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁➟⑨❥❽❾⑤❸❊⑥✗⑨❥⑤ ❹②③⑨❚ ✇♣❽❾❻➀➍♣➂▼✇➄⑥☛➧➀➏
文字應該如下所示:
在這個領域,統計學家和電腦科學家之間的差異似乎是,當統計學家有想法時,他或她就會寫一篇論文;當統計學家有想法時,他或她就會寫一篇論文;電腦科學家創辦了一家公司。
我必須手動輸入該文字。對於這麼小的報價來說這是可行的,但是我如何實際複製我所看到的內容?
PDF、瀏覽器、外掛程式或三者的某種組合是否有什麼不尋常的地方?
答案1
最可靠的方法是使用 OCR。
但作為一個骯髒而快速的解決方案,你可以使用谷歌快速瀏覽來自搜尋結果對於您的鏈接,在“快速查看”使用選項中檢視 > 純 HTML。
還是包含一些亂碼,相當不可讀但大量文字是正確的並且 可複製的。搜尋在這裡工作,因此您可以使用它來定位目標文字並複製它,而不會出現任何亂碼文字。
詳細範例在這裡:

然後使用查看選項純 HTML。

在Google上HTML版本,您可以搜尋並選擇等效文本,如下所示:

貼到記事本中會產生以下輸出:
在這個領域,統計學家和電腦科學家之間的一個差異似乎是,當統計學家有一個想法時,他或她就會寫一篇論文;而當統計學家有一個想法時,他或她就會寫一篇論文;電腦科學家創辦了一家公司。
與顯示的不完全一樣,但足夠接近,您可以使用它。
答案2
您必須先丟棄已與 PDF 關聯的損壞文本,然後才能重新對其進行 OCR。最簡單的方法是將其儲存為 TIFF 格式,然後使用 Acrobat 開啟它並重新進行 OCR。當我這樣做時,它對我有用。
答案3
看起來像是編碼不正確的 PDF。請參閱以下主題:
嘗試使用以下命令列印 PDF可愛PDF,然後查看生成的 PDF 是否更好。