我希望能夠將紙本文件掃描為 PDF 文件並使文字可搜尋。我相信 Tesseract 程式可以幫助實現這一點,但不知道如何開始,也不知道什麼是最好的程式。
有人成功製作可搜尋的 PDF 檔案嗎?
答案1
我可以推薦ocrmypdf
,看看https://github.com/ocrmypdf/OCRmyPDF,也為 Ubuntu 打包。您可以透過執行以下命令來安裝它:
sudo apt install ocrmypdf
您可以如下使用它:
ocrmypdf -l eng infile.pdf outfile.pdf
上面的調用ocrmypdf
是一個簡單的調用,它將文檔語言指定為英語 ( -l eng
)。裡面有很多選項man
頁;隨著時間的推移,您可能希望根據需要發現它們。