Когда я пытаюсь обнаружить текст в моем jpeg-файле, он правильно отображает все области, где он предположительно находится текст и изображения, но когда я экспортирую его в ODT, он создает только ODT с пустыми текстовыми и графическими фреймами.
Нужно tesseract
ли как-то настраивать?
(Я использую Ubuntu 14.10 32bit)
решение1
Попробуй это:
Откройте программу ocrfeeder.
Редактировать движок: Нажмите Tools
-OCR Engine
Выберите Tesseract engine
и нажмитеEdit
Где говорится, что arguments engine
изменил скрипт для этого:
$IMAGE $FILE -l eng -psm 3 > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt
Чтобы экспортировать документ, нажмите File
-Export
Выберите желаемый формат вывода.
Если в документе есть изображения, советую использовать html
формат «текст».
Если есть только текст, лучше всего использовать формат «Обычный текст» txt
.