如何在終端機中使用楔形文字從基於圖像的 pdf 中提取文本

2024-7-17 • tag-icon

linux pdf fedora ocr

如何在終端機中使用楔形文字從基於圖像的 pdf 中提取文本

cuneiform -l eng -f text -o outocr.txt input.pdf

上述命令在終端機中執行時，僅將 PDF 標題頁的文字輸出至 outocr.txt 檔案。我該怎麼做才能讓它識別120頁PDF中的所有文字？我使用的是 Fedora Linux 25 (x86_64)。

答案1

這篇文章提供了一個範例腳本來閱讀許多單獨的頁面並建立多頁 PDF。楔形文字本身不會建立多頁文件。如何在 Linux 上使用 OCR 從 PDF 中提取文字？

相關內容