¿Cómo extraer caracteres Unicode de un archivo .png?

¿Cómo extraer caracteres Unicode de un archivo .png?

Quiero extraer caracteres Unicode de archivos .jpg y .png.

Intento hacerlo usando el siguiente comando:

tesseract 1.png output.txt

Ese comando funciona para caracteres en inglés, pero cuando lo pruebo para Unicode como hindi, marathi o Devanagari Script produce un resultado incorrecto.

¿Existe alguna opción para extraer el script Unicode (Devanagari) a un archivo de texto mediante OCR?

Respuesta1

¿Existe alguna opción para extraer el script Unicode?

Cuando lo pruebo para Unicode como hindi, marathi o devanagari Script, produce un resultado incorrecto.

Parece que solo Hindise admite de fábrica.

Necesitas usar para usar la -l langopción:

tesseract 1.png output.txt -l hin

Puedes entrenar a Tesseract para que reconozca otros idiomas como Marathi, o Devanagari.

VerCómo utilizar las herramientas proporcionadas para entrenar Tesseract 3.0x para un nuevo idioma


TESSERACT(1) Página del manual

OPCIONES

...

-l lang

El idioma a utilizar. Si no se especifica ninguno, se supone que está en inglés. Se pueden especificar varios idiomas, separados por caracteres más. Tesseract utiliza códigos de idioma ISO 639-2 de 3 caracteres. (Ver IDIOMAS)

...

IDIOMAS

Actualmente hay paquetes de idiomas disponibles para los siguientes idiomas:

ara (árabe), aze (azerbaiyano), bul (búlgaro), cat (catalán), ces (checo), chi_sim (chino simplificado), chi_tra (chino tradicional), chr (cherokee), dan (danés), dan-frak (danés (Fraktur)), deu (alemán), ell (griego), eng (inglés), enm (inglés antiguo), epo (esperanto), est (estonio), fin (finlandés), fra (francés), frm ( Francés antiguo), glg (gallego), heb (hebreo), hin (hindi), hrv (croata), hun (húngaro), ind (indonesio), ita (italiano), jpn (japonés), kor (coreano), lav (letón), lit (lituano), nld (holandés), nor (noruego), pol (polaco), por (portugués), ron (rumano), rus (ruso), slk (eslovaco), slv (esloveno), sqi (albanés), spa (español), srp (serbio), swe (sueco), tam (tamil), tel (telugu), tgl (tagalo), tha (tailandés), tur (turco), ukr (ucraniano), vie (Vietnamita)

Para utilizar un paquete de idioma no estándar llamado foo.traineddata, configure la variable de entorno TESSDATA_PREFIX para que el archivo se pueda encontrar en TESSDATA_PREFIX/tessdata/foo.traineddata y proporcione a Tesseract el argumento -l foo.

FuenteTESSERACT(1) Página del manual

información relacionada