¿Cómo extraer caracteres Unicode de un archivo .png?

Question

¿Existe alguna opción para extraer el script Unicode?

Cuando lo pruebo para Unicode como hindi, marathi o devanagari Script, produce un resultado incorrecto.

Parece que solo Hindise admite de fábrica.

Necesitas usar para usar la -l langopción:

tesseract 1.png output.txt -l hin

Puedes entrenar a Tesseract para que reconozca otros idiomas como Marathi, o Devanagari.

VerCómo utilizar las herramientas proporcionadas para entrenar Tesseract 3.0x para un nuevo idioma

TESSERACT(1) Página del manual

OPCIONES

...

-l lang

El idioma a utilizar. Si no se especifica ninguno, se supone que está en inglés. Se pueden especificar varios idiomas, separados por caracteres más. Tesseract utiliza códigos de idioma ISO 639-2 de 3 caracteres. (Ver IDIOMAS)

...

IDIOMAS

Actualmente hay paquetes de idiomas disponibles para los siguientes idiomas:

ara (árabe), aze (azerbaiyano), bul (búlgaro), cat (catalán), ces (checo), chi_sim (chino simplificado), chi_tra (chino tradicional), chr (cherokee), dan (danés), dan-frak (danés (Fraktur)), deu (alemán), ell (griego), eng (inglés), enm (inglés antiguo), epo (esperanto), est (estonio), fin (finlandés), fra (francés), frm ( Francés antiguo), glg (gallego), heb (hebreo), hin (hindi), hrv (croata), hun (húngaro), ind (indonesio), ita (italiano), jpn (japonés), kor (coreano), lav (letón), lit (lituano), nld (holandés), nor (noruego), pol (polaco), por (portugués), ron (rumano), rus (ruso), slk (eslovaco), slv (esloveno), sqi (albanés), spa (español), srp (serbio), swe (sueco), tam (tamil), tel (telugu), tgl (tagalo), tha (tailandés), tur (turco), ukr (ucraniano), vie (Vietnamita)

Para utilizar un paquete de idioma no estándar llamado foo.traineddata, configure la variable de entorno TESSDATA_PREFIX para que el archivo se pueda encontrar en TESSDATA_PREFIX/tessdata/foo.traineddata y proporcione a Tesseract el argumento -l foo.

FuenteTESSERACT(1) Página del manual

Answer 1

¿Existe alguna opción para extraer el script Unicode?

Cuando lo pruebo para Unicode como hindi, marathi o devanagari Script, produce un resultado incorrecto.

Parece que solo Hindise admite de fábrica.

Necesitas usar para usar la -l langopción:

tesseract 1.png output.txt -l hin

Puedes entrenar a Tesseract para que reconozca otros idiomas como Marathi, o Devanagari.

VerCómo utilizar las herramientas proporcionadas para entrenar Tesseract 3.0x para un nuevo idioma

TESSERACT(1) Página del manual

OPCIONES

...

-l lang

El idioma a utilizar. Si no se especifica ninguno, se supone que está en inglés. Se pueden especificar varios idiomas, separados por caracteres más. Tesseract utiliza códigos de idioma ISO 639-2 de 3 caracteres. (Ver IDIOMAS)

...

IDIOMAS

Actualmente hay paquetes de idiomas disponibles para los siguientes idiomas:

ara (árabe), aze (azerbaiyano), bul (búlgaro), cat (catalán), ces (checo), chi_sim (chino simplificado), chi_tra (chino tradicional), chr (cherokee), dan (danés), dan-frak (danés (Fraktur)), deu (alemán), ell (griego), eng (inglés), enm (inglés antiguo), epo (esperanto), est (estonio), fin (finlandés), fra (francés), frm ( Francés antiguo), glg (gallego), heb (hebreo), hin (hindi), hrv (croata), hun (húngaro), ind (indonesio), ita (italiano), jpn (japonés), kor (coreano), lav (letón), lit (lituano), nld (holandés), nor (noruego), pol (polaco), por (portugués), ron (rumano), rus (ruso), slk (eslovaco), slv (esloveno), sqi (albanés), spa (español), srp (serbio), swe (sueco), tam (tamil), tel (telugu), tgl (tagalo), tha (tailandés), tur (turco), ukr (ucraniano), vie (Vietnamita)

Para utilizar un paquete de idioma no estándar llamado foo.traineddata, configure la variable de entorno TESSDATA_PREFIX para que el archivo se pueda encontrar en TESSDATA_PREFIX/tessdata/foo.traineddata y proporcione a Tesseract el argumento -l foo.

FuenteTESSERACT(1) Página del manual

¿Cómo extraer caracteres Unicode de un archivo .png?

Respuesta1

¿Existe alguna opción para extraer el script Unicode?

TESSERACT(1) Página del manual

información relacionada