如何在終端機中使用楔形文字從基於圖像的 pdf 中提取文本

如何在終端機中使用楔形文字從基於圖像的 pdf 中提取文本

cuneiform -l eng -f text -o outocr.txt input.pdf

上述命令在終端機中執行時,僅將 PDF 標題頁的文字輸出至 outocr.txt 檔案。我該怎麼做才能讓它識別120頁PDF中的所有文字?我使用的是 Fedora Linux 25 (x86_64)。

答案1

這篇文章提供了一個範例腳本來閱讀許多單獨的頁面並建立多頁 PDF。楔形文字本身不會建立多頁文件。 如何在 Linux 上使用 OCR 從 PDF 中提取文字?

相關內容