當我嘗試檢測 jpeg 上的文字時,它會正確顯示所有懷疑文字和圖像的區域,但當我將其匯出到 ODT 時,它只會創建一個帶有空白文字和圖像幀的 ODT。
我必須以tesseract
某種方式進行配置嗎?
(我使用Ubuntu 14.10 32位元)
答案1
嘗試這個:
開啟 ocrfeeder 程式。
編輯引擎:點擊Tools
-OCR Engine
選擇Tesseract engine
並點擊Edit
它說arguments engine
為此更改了腳本:
$IMAGE $FILE -l eng -psm 3 > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt
要匯出文檔,請按一下File
-Export
選擇所需的輸出格式。
如果文件有圖片,我建議使用html
文字格式。
如果只有文本,最好是使用純文字格式txt
。