Wie extrahiere ich Unicode-Zeichen aus einer PNG-Datei?

Wie extrahiere ich Unicode-Zeichen aus einer PNG-Datei?

Ich möchte Unicode-Zeichen aus JPG- und PNG-Dateien extrahieren.

Ich versuche dies mit dem folgenden Befehl zu tun:

tesseract 1.png output.txt

Dieser Befehl funktioniert für englische Zeichen, aber wenn ich ihn für Unicode wie Hindi, Marathi oder Devanagari-Schrift versuche, erzeugt er die falsche Ausgabe.

Gibt es eine Möglichkeit, Unicode-Skripte (Devanagari) mithilfe von OCR in eine Textdatei zu extrahieren?

Antwort1

Gibt es eine Option zum Extrahieren von Unicode-Skripten?

Wenn ich es für Unicode wie Hindi, Marathi oder Devanagari-Skript versuche, wird die falsche Ausgabe erzeugt.

Es scheint, dass nur dieses Hindisofort unterstützt wird.

-l langUm die Option zu nutzen, müssen Sie Folgendes verwenden :

tesseract 1.png output.txt -l hin

MarathiSie können Tesseract trainieren, andere Sprachen wie oder zu erkennen Devanagari.

SehenSo verwenden Sie die bereitgestellten Tools, um Tesseract 3.0x für eine neue Sprache zu trainieren


TESSERACT(1) Handbuchseite

OPTIONEN

...

-l lang

Die zu verwendende Sprache. Wenn keine angegeben ist, wird Englisch angenommen. Es können mehrere Sprachen angegeben werden, getrennt durch Pluszeichen. Tesseract verwendet 3-stellige ISO 639-2-Sprachcodes. (Siehe SPRACHEN)

...

SPRACHEN

Derzeit sind Sprachpakete für die folgenden Sprachen verfügbar:

ara (Arabisch), aze (Aserbaidschanisch), bul (Bulgarisch), cat (Katalanisch), ces (Tschechisch), chi_sim (Vereinfachtes Chinesisch), chi_tra (Traditionelles Chinesisch), chr (Cherokee), dan (Dänisch), dan-frak (Dänisch (Fraktur)), deu (Deutsch), ell (Griechisch), eng (Englisch), enm (Altenglisch), epo (Esperanto), est (Estnisch), fin (Finnisch), fra (Französisch), frm (Altfranzösisch), glg (Galizisch), heb (Hebräisch), hin (Hindi), hrv (Kroatisch), hun (Ungarisch), ind (Indonesisch), ita (Italienisch), jpn (Japanisch), kor (Koreanisch), lav (Lettisch), lit (Litauisch), nld (Niederländisch), nor (Norwegisch), pol (Polnisch), por (Portugiesisch), ron (Rumänisch), rus (Russisch), slk (Slowakisch), slv (Slowenisch), sqi (Albanisch), spa (Spanisch), srp (Serbisch), swe (Schwedisch), tam (Tamil), tel (Telugu), tgl (Tagalog), tha (Thai), tur (Türkisch), ukr (Ukrainisch), vie (Vietnamesisch)

Um ein nicht standardmäßiges Sprachpaket namens foo.traineddata zu verwenden, legen Sie die Umgebungsvariable TESSDATA_PREFIX so fest, dass die Datei unter TESSDATA_PREFIX/tessdata/foo.traineddata gefunden werden kann, und geben Sie Tesseract das Argument -l foo.

QuelleTESSERACT(1) Handbuchseite

verwandte Informationen