
Ich möchte Unicode-Zeichen aus JPG- und PNG-Dateien extrahieren.
Ich versuche dies mit dem folgenden Befehl zu tun:
tesseract 1.png output.txt
Dieser Befehl funktioniert für englische Zeichen, aber wenn ich ihn für Unicode wie Hindi, Marathi oder Devanagari-Schrift versuche, erzeugt er die falsche Ausgabe.
Gibt es eine Möglichkeit, Unicode-Skripte (Devanagari) mithilfe von OCR in eine Textdatei zu extrahieren?
Antwort1
Gibt es eine Option zum Extrahieren von Unicode-Skripten?
Wenn ich es für Unicode wie Hindi, Marathi oder Devanagari-Skript versuche, wird die falsche Ausgabe erzeugt.
Es scheint, dass nur dieses Hindi
sofort unterstützt wird.
-l lang
Um die Option zu nutzen, müssen Sie Folgendes verwenden :
tesseract 1.png output.txt -l hin
Marathi
Sie können Tesseract trainieren, andere Sprachen wie oder zu erkennen Devanagari
.
SehenSo verwenden Sie die bereitgestellten Tools, um Tesseract 3.0x für eine neue Sprache zu trainieren
TESSERACT(1) Handbuchseite
OPTIONEN
...
-l lang
Die zu verwendende Sprache. Wenn keine angegeben ist, wird Englisch angenommen. Es können mehrere Sprachen angegeben werden, getrennt durch Pluszeichen. Tesseract verwendet 3-stellige ISO 639-2-Sprachcodes. (Siehe SPRACHEN)
...
SPRACHEN
Derzeit sind Sprachpakete für die folgenden Sprachen verfügbar:
ara (Arabisch), aze (Aserbaidschanisch), bul (Bulgarisch), cat (Katalanisch), ces (Tschechisch), chi_sim (Vereinfachtes Chinesisch), chi_tra (Traditionelles Chinesisch), chr (Cherokee), dan (Dänisch), dan-frak (Dänisch (Fraktur)), deu (Deutsch), ell (Griechisch), eng (Englisch), enm (Altenglisch), epo (Esperanto), est (Estnisch), fin (Finnisch), fra (Französisch), frm (Altfranzösisch), glg (Galizisch), heb (Hebräisch), hin (Hindi), hrv (Kroatisch), hun (Ungarisch), ind (Indonesisch), ita (Italienisch), jpn (Japanisch), kor (Koreanisch), lav (Lettisch), lit (Litauisch), nld (Niederländisch), nor (Norwegisch), pol (Polnisch), por (Portugiesisch), ron (Rumänisch), rus (Russisch), slk (Slowakisch), slv (Slowenisch), sqi (Albanisch), spa (Spanisch), srp (Serbisch), swe (Schwedisch), tam (Tamil), tel (Telugu), tgl (Tagalog), tha (Thai), tur (Türkisch), ukr (Ukrainisch), vie (Vietnamesisch)
Um ein nicht standardmäßiges Sprachpaket namens foo.traineddata zu verwenden, legen Sie die Umgebungsvariable TESSDATA_PREFIX so fest, dass die Datei unter TESSDATA_PREFIX/tessdata/foo.traineddata gefunden werden kann, und geben Sie Tesseract das Argument -l foo.