
我想從 .jpg 和 .png 檔案中提取 Unicode 字元。
我嘗試使用以下命令來完成此操作:
tesseract 1.png output.txt
該命令適用於英文字符,但當我嘗試使用印地語、馬拉地語或梵文腳本等 Unicode 時,它會產生錯誤的輸出。
是否有任何選項可以使用 OCR 將 Unicode (Devanagari) 腳本提取到文字檔案?
答案1
有沒有提取 Unicode 腳本的選項?
當我嘗試使用印地語、馬拉地語或梵文腳本等 Unicode 時,它會產生錯誤的輸出。
看來只有Hindi
開箱即用的支援。
您需要使用以下-l lang
選項:
tesseract 1.png output.txt -l hin
您可以訓練 tesseract 識別其他語言,例如Marathi
, 或Devanagari
。
看如何使用提供的工具為新語言訓練 Tesseract 3.0x
TESSERACT(1) 手冊頁
選項
…
-l lang
要使用的語言。如果未指定,則假定為英文。可以指定多種語言,並以加號分隔。 Tesseract 使用 3 字元 ISO 639-2 語言代碼。 (參見語言)
…
語言
目前有適用於以下語言的語言包:
ara(阿拉伯語)、aze(亞塞拜然語)、bul(保加利亞語)、cat(加泰隆尼亞語)、ces(捷克語)、chi_sim(簡體中文)、chi_tra(繁體中文)、chr(切羅基語)、dan(丹麥語)、dan-frak (丹麥語(Fraktur))、deu(德語)、ell(希臘語)、eng(英語)、enm(古英語)、epo(世界語)、est(愛沙尼亞語)、fin(芬蘭語)、fra(法語)、frm(古法語)、glg(加利西亞語)、heb(希伯來語)、hin(印地語)、hrv(克羅埃西亞語)、 hun(匈牙利語)、ind(印尼語)、ita(義大利語)、jpn(日語)、kor(韓語)、lav (拉脫維亞語)、lit(立陶宛語)、nld(荷蘭語)、nor(挪威語)、pol(波蘭語)、por(葡萄牙語)、ron(羅馬尼亞語)、rus(俄語)、slk(斯洛伐克語)、slv(斯洛維尼亞語)、sqi (阿爾巴尼亞語)、spa(西班牙語)、srp (塞爾維亞語)、swe(瑞典語)、tam(泰米爾語)、tel(泰盧固語)、tgl(他加祿語)、tha(泰語)、tur(土耳其語)、ukr(烏克蘭語) 、vie (越南語)
要使用名為 foo.traineddata 的非標準語言包,請設定 TESSDATA_PREFIX 環境變量,以便可以在 TESSDATA_PREFIX/tessdata/foo.traineddata 中找到該文件,並為 Tesseract 提供參數 -l foo。