cuneiform -l eng -f text -o outocr.txt input.pdf
上述命令在終端機中執行時,僅將 PDF 標題頁的文字輸出至 outocr.txt 檔案。我該怎麼做才能讓它識別120頁PDF中的所有文字?我使用的是 Fedora Linux 25 (x86_64)。
答案1
這篇文章提供了一個範例腳本來閱讀許多單獨的頁面並建立多頁 PDF。楔形文字本身不會建立多頁文件。 如何在 Linux 上使用 OCR 從 PDF 中提取文字?
cuneiform -l eng -f text -o outocr.txt input.pdf
上述命令在終端機中執行時,僅將 PDF 標題頁的文字輸出至 outocr.txt 檔案。我該怎麼做才能讓它識別120頁PDF中的所有文字?我使用的是 Fedora Linux 25 (x86_64)。
這篇文章提供了一個範例腳本來閱讀許多單獨的頁面並建立多頁 PDF。楔形文字本身不會建立多頁文件。 如何在 Linux 上使用 OCR 從 PDF 中提取文字?