Es können keine .box-Dateien erstellt werden - Training Tessearct

Es können keine .box-Dateien erstellt werden - Training Tessearct

Ich versuche, Tesseract in Ubuntu 20.04.1 LTS zu trainieren. Ich habe Tesseract und die erforderlichen Trainingstools heruntergeladen.

Für die Trainingsdaten verwende ich jTessBoxEditor. Ich habe die .tiff-Dateien, kann aber keine .box-Dateien erstellen. Wenn ich Folgendes in mein Terminal eingebe:

tesseract --psm 6 --oem 3 Liberation_serif.font.exp0.tif Liberation_serif.font.exp0 makebox

Ich erhalte die folgende Fehlermeldung:

Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.

Ich habe versucht, eng.traineddata von git herunterzuladen und in tessdata einzufügen. Aber ich habe dieselbe Fehlermeldung erhalten. Dann habe ich TESSDATA_PREFIX mehrmals geändert, damit es auf tessdata zeigt, aber ich habe wieder dieselbe Fehlermeldung erhalten. Wie kann ich das beheben?

Bearbeiten: Die ausführbare Datei und der Quellcode von Tesseract, die ich heruntergeladen habe, befinden sich an unterschiedlichen Speicherorten.

Antwort1

Ich habe Tesseract an zwei Orten heruntergeladen. Der Ort, auf den TESSDATA_PREFIX verwies, hatte eng.traineddata nicht. Ich habe es in diesem Verzeichnis von GitHub heruntergeladen und cat >> .pam_environmenterneut verwendet, damit TESSDATA_PREFIX auf diesen Ort verweist.

Ich habe mich erneut angemeldet und kann jetzt .box-Dateien erstellen.

verwandte Informationen