Wenn ich versuche, Text in meinem JPEG zu erkennen, werden alle Bereiche, in denen Text und Bilder vermutet werden, korrekt angezeigt. Beim Exportieren in ODT wird jedoch nur ein ODT mit leeren Text- und Bildrahmen erstellt.
Muss ich tesseract
irgendwie konfigurieren?
(Ich verwende Ubuntu 14.10 32bit)
Antwort1
Versuche dies:
Öffnen Sie das OCRFeeder-Programm.
Bearbeiten Sie die Engine: Klicken Sie auf Tools
-OCR Engine
Wählen Sie aus Tesseract engine
und klicken Sie aufEdit
Dort steht, dass arguments engine
das Skript hierfür geändert wurde:
$IMAGE $FILE -l eng -psm 3 > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt
Um das Dokument zu exportieren, klicken Sie auf File
-Export
Wählen Sie das gewünschte Ausgabeformat.
Wenn das Dokument Bilder enthält, empfehle ich die Verwendung des html
Formats „Text“.
Wenn nur Text vorhanden ist, verwenden Sie am besten das Format „Nur Text“ txt
.