
Quero extrair caracteres Unicode de arquivos .jpg e .png.
Eu tento fazer isso usando o seguinte comando:
tesseract 1.png output.txt
Esse comando funciona para caracteres ingleses, mas quando tento para Unicode como Hindi, Marathi ou Devanagari Script, ele produz a saída errada.
Existe alguma opção para extrair o script Unicode (Devanagari) para um arquivo de texto usando OCR?
Responder1
Existe alguma opção para extrair o script Unicode?
Quando tento Unicode como Hindi, Marathi ou Devanagari Script, ele produz a saída errada.
Parece que apenas Hindi
é compatível imediatamente.
Você precisa usar para usar a -l lang
opção:
tesseract 1.png output.txt -l hin
Você pode treinar o tesserato para reconhecer outros idiomas como Marathi
ou Devanagari
.
VerComo usar as ferramentas fornecidas para treinar o Tesseract 3.0x para um novo idioma
Página do manual do TESSERAC(1)
OPÇÕES
...
-l lang
A linguagem a ser usada. Se nenhum for especificado, o inglês será assumido. Vários idiomas podem ser especificados, separados por caracteres de adição. O Tesseract usa códigos de idioma ISO 639-2 de 3 caracteres. (Veja IDIOMAS)
...
LÍNGUAS
Atualmente existem pacotes de idiomas disponíveis para os seguintes idiomas:
ara (árabe), aze (azerbaijano), bul (búlgaro), cat (catalão), ces (tcheco), chi_sim (chinês simplificado), chi_tra (chinês tradicional), chr (cherokee), dan (dinamarquês), dan-frak (dinamarquês (Fraktur)), deu (alemão), ell (grego), eng (inglês), enm (inglês antigo), epo (esperanto), est (estoniano), fin (finlandês), fra (francês), frm ( francês antigo), glg (galego), heb (hebraico), hin (hindi), hrv (croata), hun (húngaro), ind (indonésio), ita (italiano), jpn (japonês), kor (coreano), lav (letão), lit (lituano), nld (holandês), nor (norueguês), pol (polonês), por (português), ron (romeno), rus (russo), slk (eslovaco), slv (esloveno), sqi (albanês), spa (espanhol), srp (sérvio), swe (sueco), tam (tâmil), tel (telugu), tgl (tagalo), tha (tailandês), tur (turco), ukr (ucraniano), vie (Vietnamita)
Para usar um pacote de idiomas não padrão chamado foo.traineddata, defina a variável de ambiente TESSDATA_PREFIX para que o arquivo possa ser encontrado em TESSDATA_PREFIX/tessdata/foo.traineddata e forneça ao Tesseract o argumento -l foo.