如何從 PDF 複製此報價?

如何從 PDF 複製此報價?

可能的重複:
PDF複製貼上時出現亂碼

我正在讀一本PDF副本Jerome H. Friedman 的論文“數據挖掘和統計:有何關聯?”使用谷歌瀏覽器。

它包含一個有趣的引言,我想將其複製並貼上到我的部落格中。

我用滑鼠選擇引用的文本,然後按CTRL+C複製文本。該文件如下所示:

傑羅姆論文中突出顯示的引用。

當我將文字貼到記事本、Stack Overflow 或其他任何地方時,該產品是類似 Wingdings 的亂碼:

➣✍❺❼⑤➭✸❸❊➁❥❸❊⑥▼❽❾❸✘➎✳❸❾② ❥⑤⑩⑨❘②❥ ⑤⑩❽❾⑤⑩✇➄⑥▼⑨❏✇➄⑥▼❺➌ ❥❸❊➁❷⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②③⑨✘⑤⑨⑝②⑝ ➌⑨❹❸ ❊❸❊➍P⑨①②❥❻ ➎✳❸❏②❥➇▼✇▲②➟➇❚②❥❚✝ ❘②③✇▲②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥❦➇▼✇✞ ⑦❸❷❻➀➁ ↔⑨❹➇⑦❸❷➊❚➁❥⑤②❥❸✶⑨✇❨➂✜✞✝✳✍✍✍✍✶ ♣❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁➟⑨❥❽❾⑤❸❊⑥✗⑨❥⑤⑟ ❹②③⑨❚ ✇♣❽❾❻➀➍♣➂▼✇➄⑥☛➧➀➏

文字應該如下所示:

在這個領域,統計學家和電腦科學家之間的差異似乎是,當統計學家有想法時,他或她就會寫一篇論文;當統計學家有想法時,他或她就會寫一篇論文;電腦科學家創辦了一家公司。

我必須手動輸入該文字。對於這麼小的報價來說這是可行的,但是我如何實際複製我所看到的內容?

PDF、瀏覽器、外掛程式或三者的某種組合是否有什麼不尋常的地方?

答案1

最可靠的方法是使用 OCR。

但作為一個骯髒而快速的解決方案,你可以使用谷歌快速瀏覽來自搜尋結果對於您的鏈接,在“快速查看”使用選項中檢視 > 純 HTML

還是包含一些亂碼,相當不可讀但大量文字是正確的並且 可複製的。搜尋在這裡工作,因此您可以使用它來定位目標文字並複製它,而不會出現任何亂碼文字。


詳細範例在這裡:
URL 的 Google 搜尋結果包含快速查看連結。
然後使用查看選項純 HTML
快速檢視有一個選項可以以 HTML 形式檢視文件。
在Google上HTML版本,您可以搜尋並選擇等效文本,如下所示:
搜尋 HTML 版本以尋找並選擇相關報價。
貼到記事本中會產生以下輸出:

在這個領域,統計學家和電腦科學家之間的一個差異似乎是,當統計學家有一個想法時,他或她就會寫一篇論文;而當統計學家有一個想法時,他或她就會寫一篇論文;電腦科學家創辦了一家公司。

與顯示的不完全一樣,但足夠接近,您可以使用它。

答案2

您必須先丟棄已與 PDF 關聯的損壞文本,然後才能重新對其進行 OCR。最簡單的方法是將其儲存為 TIFF 格式,然後使用 Acrobat 開啟它並重新進行 OCR。當我這樣做時,它對我有用。

答案3

看起來像是編碼不正確的 PDF。請參閱以下主題:

嘗試使用以下命令列印 PDF可愛PDF,然後查看生成的 PDF 是否更好。

相關內容