Como extrair caracteres Unicode de um arquivo .png?

Question

Existe alguma opção para extrair o script Unicode?

Quando tento Unicode como Hindi, Marathi ou Devanagari Script, ele produz a saída errada.

Parece que apenas Hindié compatível imediatamente.

Você precisa usar para usar a -l langopção:

tesseract 1.png output.txt -l hin

Você pode treinar o tesserato para reconhecer outros idiomas como Marathiou Devanagari.

VerComo usar as ferramentas fornecidas para treinar o Tesseract 3.0x para um novo idioma

Página do manual do TESSERAC(1)

OPÇÕES

...

-l lang

A linguagem a ser usada. Se nenhum for especificado, o inglês será assumido. Vários idiomas podem ser especificados, separados por caracteres de adição. O Tesseract usa códigos de idioma ISO 639-2 de 3 caracteres. (Veja IDIOMAS)

...

LÍNGUAS

Atualmente existem pacotes de idiomas disponíveis para os seguintes idiomas:

ara (árabe), aze (azerbaijano), bul (búlgaro), cat (catalão), ces (tcheco), chi_sim (chinês simplificado), chi_tra (chinês tradicional), chr (cherokee), dan (dinamarquês), dan-frak (dinamarquês (Fraktur)), deu (alemão), ell (grego), eng (inglês), enm (inglês antigo), epo (esperanto), est (estoniano), fin (finlandês), fra (francês), frm ( francês antigo), glg (galego), heb (hebraico), hin (hindi), hrv (croata), hun (húngaro), ind (indonésio), ita (italiano), jpn (japonês), kor (coreano), lav (letão), lit (lituano), nld (holandês), nor (norueguês), pol (polonês), por (português), ron (romeno), rus (russo), slk (eslovaco), slv (esloveno), sqi (albanês), spa (espanhol), srp (sérvio), swe (sueco), tam (tâmil), tel (telugu), tgl (tagalo), tha (tailandês), tur (turco), ukr (ucraniano), vie (Vietnamita)

Para usar um pacote de idiomas não padrão chamado foo.traineddata, defina a variável de ambiente TESSDATA_PREFIX para que o arquivo possa ser encontrado em TESSDATA_PREFIX/tessdata/foo.traineddata e forneça ao Tesseract o argumento -l foo.

FontePágina do manual do TESSERAC(1)

Answer 1

Existe alguma opção para extrair o script Unicode?

Quando tento Unicode como Hindi, Marathi ou Devanagari Script, ele produz a saída errada.

Parece que apenas Hindié compatível imediatamente.

Você precisa usar para usar a -l langopção:

tesseract 1.png output.txt -l hin

Você pode treinar o tesserato para reconhecer outros idiomas como Marathiou Devanagari.

VerComo usar as ferramentas fornecidas para treinar o Tesseract 3.0x para um novo idioma

Página do manual do TESSERAC(1)

OPÇÕES

...

-l lang

A linguagem a ser usada. Se nenhum for especificado, o inglês será assumido. Vários idiomas podem ser especificados, separados por caracteres de adição. O Tesseract usa códigos de idioma ISO 639-2 de 3 caracteres. (Veja IDIOMAS)

...

LÍNGUAS

Atualmente existem pacotes de idiomas disponíveis para os seguintes idiomas:

ara (árabe), aze (azerbaijano), bul (búlgaro), cat (catalão), ces (tcheco), chi_sim (chinês simplificado), chi_tra (chinês tradicional), chr (cherokee), dan (dinamarquês), dan-frak (dinamarquês (Fraktur)), deu (alemão), ell (grego), eng (inglês), enm (inglês antigo), epo (esperanto), est (estoniano), fin (finlandês), fra (francês), frm ( francês antigo), glg (galego), heb (hebraico), hin (hindi), hrv (croata), hun (húngaro), ind (indonésio), ita (italiano), jpn (japonês), kor (coreano), lav (letão), lit (lituano), nld (holandês), nor (norueguês), pol (polonês), por (português), ron (romeno), rus (russo), slk (eslovaco), slv (esloveno), sqi (albanês), spa (espanhol), srp (sérvio), swe (sueco), tam (tâmil), tel (telugu), tgl (tagalo), tha (tailandês), tur (turco), ukr (ucraniano), vie (Vietnamita)

Para usar um pacote de idiomas não padrão chamado foo.traineddata, defina a variável de ambiente TESSDATA_PREFIX para que o arquivo possa ser encontrado em TESSDATA_PREFIX/tessdata/foo.traineddata e forneça ao Tesseract o argumento -l foo.

FontePágina do manual do TESSERAC(1)

Como extrair caracteres Unicode de um arquivo .png?

Responder1

Existe alguma opção para extrair o script Unicode?

Página do manual do TESSERAC(1)

informação relacionada