可以查看/閱讀 pdf 內容,但無法提取文本

可以查看/閱讀 pdf 內容,但無法提取文本

我下載了一個 PDF 文件,我可以查看、列印、修改……但無法進行簡單的文字複製。透過簡短的搜索,我找不到這是如何實現的。我嘗試過使用 macOS 預覽應用程式和 Chrome 的 pdf 檢視器。在預覽應用程式上,我得到了?,在 Chrome 上,我得到了空白空間

在下圖中,您可以看到 8,但是當我嘗試複製它時,我得到了空白,或者?我認為這是 macOS 表示它無法讀取該編碼的方式?

在此輸入影像描述

答案1

這是從 .jpg 製作 pdf 時的限制(副作用)。

除了使用 OCR 軟體提取文字之外,沒有其他方法可以解決此問題。如果直接從 pdf 無法使用,請列印 .jpg 格式以供使用。

答案2

您可以使用此工具將 PDF 轉換為文字:pdf2text-ocr

然後您將能夠複製、搜尋等。光學字元辨識並且永遠不會上傳到外部伺服器。它是免費且開源的。

揭露:我是 pdf2text-ocr 的作者。我創建它是為了幫助一位在工作中遇到相同問題的朋友。

相關內容