Wie extrahiere ich Unicode-Zeichen aus einer PNG-Datei?

Question

Gibt es eine Option zum Extrahieren von Unicode-Skripten?

Wenn ich es für Unicode wie Hindi, Marathi oder Devanagari-Skript versuche, wird die falsche Ausgabe erzeugt.

Es scheint, dass nur dieses Hindisofort unterstützt wird.

-l langUm die Option zu nutzen, müssen Sie Folgendes verwenden :

tesseract 1.png output.txt -l hin

MarathiSie können Tesseract trainieren, andere Sprachen wie oder zu erkennen Devanagari.

SehenSo verwenden Sie die bereitgestellten Tools, um Tesseract 3.0x für eine neue Sprache zu trainieren

TESSERACT(1) Handbuchseite

OPTIONEN

...

-l lang

Die zu verwendende Sprache. Wenn keine angegeben ist, wird Englisch angenommen. Es können mehrere Sprachen angegeben werden, getrennt durch Pluszeichen. Tesseract verwendet 3-stellige ISO 639-2-Sprachcodes. (Siehe SPRACHEN)

...

SPRACHEN

Derzeit sind Sprachpakete für die folgenden Sprachen verfügbar:

ara (Arabisch), aze (Aserbaidschanisch), bul (Bulgarisch), cat (Katalanisch), ces (Tschechisch), chi_sim (Vereinfachtes Chinesisch), chi_tra (Traditionelles Chinesisch), chr (Cherokee), dan (Dänisch), dan-frak (Dänisch (Fraktur)), deu (Deutsch), ell (Griechisch), eng (Englisch), enm (Altenglisch), epo (Esperanto), est (Estnisch), fin (Finnisch), fra (Französisch), frm (Altfranzösisch), glg (Galizisch), heb (Hebräisch), hin (Hindi), hrv (Kroatisch), hun (Ungarisch), ind (Indonesisch), ita (Italienisch), jpn (Japanisch), kor (Koreanisch), lav (Lettisch), lit (Litauisch), nld (Niederländisch), nor (Norwegisch), pol (Polnisch), por (Portugiesisch), ron (Rumänisch), rus (Russisch), slk (Slowakisch), slv (Slowenisch), sqi (Albanisch), spa (Spanisch), srp (Serbisch), swe (Schwedisch), tam (Tamil), tel (Telugu), tgl (Tagalog), tha (Thai), tur (Türkisch), ukr (Ukrainisch), vie (Vietnamesisch)

Um ein nicht standardmäßiges Sprachpaket namens foo.traineddata zu verwenden, legen Sie die Umgebungsvariable TESSDATA_PREFIX so fest, dass die Datei unter TESSDATA_PREFIX/tessdata/foo.traineddata gefunden werden kann, und geben Sie Tesseract das Argument -l foo.

QuelleTESSERACT(1) Handbuchseite

Answer 1

Gibt es eine Option zum Extrahieren von Unicode-Skripten?

Wenn ich es für Unicode wie Hindi, Marathi oder Devanagari-Skript versuche, wird die falsche Ausgabe erzeugt.

Es scheint, dass nur dieses Hindisofort unterstützt wird.

-l langUm die Option zu nutzen, müssen Sie Folgendes verwenden :

tesseract 1.png output.txt -l hin

MarathiSie können Tesseract trainieren, andere Sprachen wie oder zu erkennen Devanagari.

SehenSo verwenden Sie die bereitgestellten Tools, um Tesseract 3.0x für eine neue Sprache zu trainieren

TESSERACT(1) Handbuchseite

OPTIONEN

...

-l lang

Die zu verwendende Sprache. Wenn keine angegeben ist, wird Englisch angenommen. Es können mehrere Sprachen angegeben werden, getrennt durch Pluszeichen. Tesseract verwendet 3-stellige ISO 639-2-Sprachcodes. (Siehe SPRACHEN)

...

SPRACHEN

Derzeit sind Sprachpakete für die folgenden Sprachen verfügbar:

ara (Arabisch), aze (Aserbaidschanisch), bul (Bulgarisch), cat (Katalanisch), ces (Tschechisch), chi_sim (Vereinfachtes Chinesisch), chi_tra (Traditionelles Chinesisch), chr (Cherokee), dan (Dänisch), dan-frak (Dänisch (Fraktur)), deu (Deutsch), ell (Griechisch), eng (Englisch), enm (Altenglisch), epo (Esperanto), est (Estnisch), fin (Finnisch), fra (Französisch), frm (Altfranzösisch), glg (Galizisch), heb (Hebräisch), hin (Hindi), hrv (Kroatisch), hun (Ungarisch), ind (Indonesisch), ita (Italienisch), jpn (Japanisch), kor (Koreanisch), lav (Lettisch), lit (Litauisch), nld (Niederländisch), nor (Norwegisch), pol (Polnisch), por (Portugiesisch), ron (Rumänisch), rus (Russisch), slk (Slowakisch), slv (Slowenisch), sqi (Albanisch), spa (Spanisch), srp (Serbisch), swe (Schwedisch), tam (Tamil), tel (Telugu), tgl (Tagalog), tha (Thai), tur (Türkisch), ukr (Ukrainisch), vie (Vietnamesisch)

Um ein nicht standardmäßiges Sprachpaket namens foo.traineddata zu verwenden, legen Sie die Umgebungsvariable TESSDATA_PREFIX so fest, dass die Datei unter TESSDATA_PREFIX/tessdata/foo.traineddata gefunden werden kann, und geben Sie Tesseract das Argument -l foo.

QuelleTESSERACT(1) Handbuchseite

Wie extrahiere ich Unicode-Zeichen aus einer PNG-Datei?

Antwort1

Gibt es eine Option zum Extrahieren von Unicode-Skripten?

TESSERACT(1) Handbuchseite

verwandte Informationen