如何從 PDF 複製此報價？

2024-7-12 • tag-icon

google-chrome pdf copy-paste

如何從 PDF 複製此報價？

可能的重複：
PDF複製貼上時出現亂碼

我正在讀一本PDF副本Jerome H. Friedman 的論文“數據挖掘和統計：有何關聯？”使用谷歌瀏覽器。

它包含一個有趣的引言，我想將其複製並貼上到我的部落格中。

我用滑鼠選擇引用的文本，然後按CTRL+C複製文本。該文件如下所示：

傑羅姆論文中突出顯示的引用。

當我將文字貼到記事本、Stack Overflow 或其他任何地方時，該產品是類似 Wingdings 的亂碼：

➣✍❺❼⑤➭✸❸❊➁❥❸❊⑥▼❽❾❸✘➎✳❸❾② ❥⑤⑩⑨❘②❥ ⑤⑩❽❾⑤⑩✇➄⑥▼⑨❏✇➄⑥▼❺➌ ❥❸❊➁❷⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②③⑨✘⑤⑨⑝②⑝ ➌⑨❹❸ ❊❸❊➍P⑨①②❥❻ ➎✳❸❏②❥➇▼✇▲②➟➇❚②❥❚✝ ❘②③✇▲②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥❦➇▼✇✞ ⑦❸❷❻➀➁ ↔⑨❹➇⑦❸❷➊❚➁❥⑤②❥❸✶⑨✇❨➂✜✞✝✳✍✍✍✍✶ ♣❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁➟⑨❥❽❾⑤❸❊⑥✗⑨❥⑤⑟ ❹②③⑨❚ ✇♣❽❾❻➀➍♣➂▼✇➄⑥☛➧➀➏

文字應該如下所示：

在這個領域，統計學家和電腦科學家之間的差異似乎是，當統計學家有想法時，他或她就會寫一篇論文；當統計學家有想法時，他或她就會寫一篇論文；電腦科學家創辦了一家公司。

我必須手動輸入該文字。對於這麼小的報價來說這是可行的，但是我如何實際複製我所看到的內容？

PDF、瀏覽器、外掛程式或三者的某種組合是否有什麼不尋常的地方？

答案1

最可靠的方法是使用 OCR。

但作為一個骯髒而快速的解決方案，你可以使用谷歌快速瀏覽來自搜尋結果對於您的鏈接，在“快速查看”使用選項中檢視 > 純 HTML。

還是包含一些亂碼，相當不可讀但大量文字是正確的並且 可複製的。搜尋在這裡工作，因此您可以使用它來定位目標文字並複製它，而不會出現任何亂碼文字。

詳細範例在這裡：
URL 的 Google 搜尋結果包含快速查看連結。

URL 的 Google 搜尋結果包含快速查看連結。

然後使用查看選項純 HTML。

快速檢視有一個選項可以以 HTML 形式檢視文件。

在Google上HTML版本，您可以搜尋並選擇等效文本，如下所示：

搜尋 HTML 版本以尋找並選擇相關報價。

貼到記事本中會產生以下輸出：

在這個領域，統計學家和電腦科學家之間的一個差異似乎是，當統計學家有一個想法時，他或她就會寫一篇論文；而當統計學家有一個想法時，他或她就會寫一篇論文；電腦科學家創辦了一家公司。

與顯示的不完全一樣，但足夠接近，您可以使用它。

答案2

您必須先丟棄已與 PDF 關聯的損壞文本，然後才能重新對其進行 OCR。最簡單的方法是將其儲存為 TIFF 格式，然後使用 Acrobat 開啟它並重新進行 OCR。當我這樣做時，它對我有用。

答案3

看起來像是編碼不正確的 PDF。請參閱以下主題：

嘗試使用以下命令列印 PDF可愛PDF，然後查看生成的 PDF 是否更好。

相關內容