jpeg でテキストを検出しようとすると、テキストと画像が疑われるすべての領域が正しく表示されますが、ODT にエクスポートすると、空のテキスト フレームと画像フレームを含む ODT のみが作成されます。
何らかの設定をする必要がありますかtesseract
?
(私はUbuntu 14.10 32ビットを使用しています)
答え1
これを試して:
ocrfeeder プログラムを開きます。
エンジンを編集します: クリックTools
-OCR Engine
を選択しTesseract engine
てクリックEdit
arguments engine
スクリプトが変更されたと書かれている箇所:
$IMAGE $FILE -l eng -psm 3 > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt
ドキュメントをエクスポートするには、クリックしますFile
-Export
希望する出力形式を選択します。
ドキュメントに画像が含まれている場合は、html
テキスト形式を使用することをお勧めします。
テキストのみの場合は、プレーンテキスト形式を使用するのが最適ですtxt
。