.png 파일에서 유니코드 문자를 추출하는 방법은 무엇입니까?

.png 파일에서 유니코드 문자를 추출하는 방법은 무엇입니까?

.jpg 및 .png 파일에서 유니코드 문자를 추출하고 싶습니다.

다음 명령을 사용하여 수행하려고합니다.

tesseract 1.png output.txt

해당 명령은 영어 문자에 대해 작동하지만 힌디어, 마라티어 또는 데바나가리 스크립트와 같은 유니코드에 대해 시도하면 잘못된 출력이 생성됩니다.

OCR을 사용하여 유니코드(데바나가리) 스크립트를 텍스트 파일로 추출하는 옵션이 있습니까?

답변1

유니코드 스크립트를 추출하는 옵션이 있습니까?

Hindi, Marathi 또는 Devanagari Script와 같은 유니코드에 대해 시도하면 잘못된 출력이 생성됩니다.

Hindi기본적으로 만 지원되는 것으로 보입니다 .

옵션 을 사용하려면 다음이 필요합니다 -l lang.

tesseract 1.png output.txt -l hin

Marathi, 또는 와 같은 다른 언어를 인식하도록 tesseract를 훈련시킬 수 있습니다 Devanagari.

보다새로운 언어에 대해 Tesseract 3.0x를 교육하기 위해 제공된 도구를 사용하는 방법


TESSERACT(1) 매뉴얼 페이지

옵션

...

-l lang

사용할 언어입니다. 아무것도 지정하지 않으면 영어로 간주됩니다. 여러 언어를 더하기 문자로 구분하여 지정할 수 있습니다. Tesseract는 3자리 ISO 639-2 언어 코드를 사용합니다. (언어 참조)

...

언어

현재 다음 언어에 사용할 수 있는 언어 팩이 있습니다.

ara(아랍어), aze(아제르바이잔어), bul(불가리아어), cat(카탈로니아어), ces(체코어), chi_sim(중국어 간체), chi_tra(중국어 번체), chr(체로키어), dan(덴마크어), dan-frak (덴마크어(Fraktur)), deu(독일어), ell(그리스어), eng(영어), enm(고대 영어), epo(에스페란토), est(에스토니아어), fin(핀란드어), fra(프랑스어), frm( 고대 프랑스어), glg(갈리시아어), heb(히브리어), hin(힌디어), hrv(크로아티아어), hun(헝가리어), ind(인도네시아어), ita(이탈리아어), jpn(일본어), kor(한국어), lav (라트비아어), lit(리투아니아어), nld(네덜란드어), nor(노르웨이어), pol(폴란드어), por(포르투갈어), ron(루마니아어), rus(러시아어), slk(슬로바키아어), slv(슬로베니아어), sqi (알바니아어), spa(스페인어), srp(세르비아어), swe(스웨덴어), tam(타밀어), tel(텔루구어), tgl(타갈로그어), tha(태국어), tur(터키어), ukr(우크라이나어), vie (베트남어)

foo.traineddata라는 비표준 언어 팩을 사용하려면 TESSDATA_PREFIX/tessdata/foo.traineddata에서 파일을 찾을 수 있도록 TESSDATA_PREFIX 환경 변수를 설정하고 Tesseract에 -l foo 인수를 제공합니다.

원천TESSERACT(1) 매뉴얼 페이지

관련 정보