Как извлечь символ Unicode из файла .png?

Question

Есть ли возможность извлечь скрипт Unicode?

Когда я пробую его для символов Unicode, таких как хинди, маратхи или деванагари, он выдает неправильный вывод.

Похоже, что Hindiподдерживается только «из коробки».

Для использования опции вам необходимо использовать -l lang:

tesseract 1.png output.txt -l hin

Вы можете обучить tesseract распознавать другие языки, такие как Marathi, или Devanagari.

ВидетьКак использовать предоставленные инструменты для обучения Tesseract 3.0x новому языку

Страница руководства TESSERACT(1)

ПАРАМЕТРЫ

...

-l lang

Язык для использования. Если ничего не указано, предполагается английский. Можно указать несколько языков, разделив их символами плюс. Tesseract использует 3-символьные коды языков ISO 639-2. (См. ЯЗЫКИ)

...

ЯЗЫКИ

В настоящее время доступны языковые пакеты для следующих языков:

ara (арабский), aze (азербайджанский), bul (болгарский), cat (каталонский), ces (чешский), chi_sim (упрощенный китайский), chi_tra (традиционный китайский), chr (чероки), dan (датский), dan-frak (датский (фрактур)), deu (немецкий), ell (греческий), eng (английский), enm (древнеанглийский), epo (эсперанто), est (эстонский), fin (финский), fra (французский), frm (древнефранцузский), glg (галисийский), heb (иврит), hin (хинди), hrv (хорватский), hun (венгерский), ind (индонезийский), ita (итальянский), jpn (японский), kor (корейский), lav (латышский), lit (литовский), nld (голландский), nor (норвежский), pol (польский), por (португальский), ron (румынский), rus (русский), slk (словацкий), slv (словенский), sqi (албанский), spa (испанский), srp (сербский), swe (шведский), tam (тамильский), tel (телугу), tgl (тагальский), tha (тайский), tur (турецкий), ukr (украинский), vie (вьетнамский)

Чтобы использовать нестандартный языковой пакет с именем foo.traineddata, установите переменную среды TESSDATA_PREFIX, чтобы файл можно было найти по адресу TESSDATA_PREFIX/tessdata/foo.traineddata, и укажите Tesseract аргумент -l foo.

ИсточникСтраница руководства TESSERACT(1)

Answer 1

Есть ли возможность извлечь скрипт Unicode?

Когда я пробую его для символов Unicode, таких как хинди, маратхи или деванагари, он выдает неправильный вывод.

Похоже, что Hindiподдерживается только «из коробки».

Для использования опции вам необходимо использовать -l lang:

tesseract 1.png output.txt -l hin

Вы можете обучить tesseract распознавать другие языки, такие как Marathi, или Devanagari.

ВидетьКак использовать предоставленные инструменты для обучения Tesseract 3.0x новому языку

Страница руководства TESSERACT(1)

ПАРАМЕТРЫ

...

-l lang

Язык для использования. Если ничего не указано, предполагается английский. Можно указать несколько языков, разделив их символами плюс. Tesseract использует 3-символьные коды языков ISO 639-2. (См. ЯЗЫКИ)

...

ЯЗЫКИ

В настоящее время доступны языковые пакеты для следующих языков:

ara (арабский), aze (азербайджанский), bul (болгарский), cat (каталонский), ces (чешский), chi_sim (упрощенный китайский), chi_tra (традиционный китайский), chr (чероки), dan (датский), dan-frak (датский (фрактур)), deu (немецкий), ell (греческий), eng (английский), enm (древнеанглийский), epo (эсперанто), est (эстонский), fin (финский), fra (французский), frm (древнефранцузский), glg (галисийский), heb (иврит), hin (хинди), hrv (хорватский), hun (венгерский), ind (индонезийский), ita (итальянский), jpn (японский), kor (корейский), lav (латышский), lit (литовский), nld (голландский), nor (норвежский), pol (польский), por (португальский), ron (румынский), rus (русский), slk (словацкий), slv (словенский), sqi (албанский), spa (испанский), srp (сербский), swe (шведский), tam (тамильский), tel (телугу), tgl (тагальский), tha (тайский), tur (турецкий), ukr (украинский), vie (вьетнамский)

Чтобы использовать нестандартный языковой пакет с именем foo.traineddata, установите переменную среды TESSDATA_PREFIX, чтобы файл можно было найти по адресу TESSDATA_PREFIX/tessdata/foo.traineddata, и укажите Tesseract аргумент -l foo.

ИсточникСтраница руководства TESSERACT(1)

Как извлечь символ Unicode из файла .png?

решение1

Есть ли возможность извлечь скрипт Unicode?

Страница руководства TESSERACT(1)

Связанный контент