Когда я использую OCR с помощью Adobe Acrobat 2017, я обнаруживаю, что он не распознает тот же текст на той же странице. Например, когда у нас есть слово Dr. Thandabout 15 раз на одной странице, он распознает это имя только 12 раз. Может ли кто-нибудь дать руководство по этой проблеме.
решение1
Распознавание текста никогда не бывает точным на 100%, поэтому после распознавания текста PDF-файла необходимо провести его редакционную проверку.
Из моего опыта оценки (мнения) результатов OCR:
- без засечек: точность 95%
- засечки: точность 90%
- Моноширинный шрифт: точность 80%
- декоративная засечка: точность 75%
- курсив: точность 50%
Конечно, приведенные выше оценки действительны только в том случае, если PDF-файл не был отсканирован и представляет собой просто PDF-файл на основе изображения без мусора.
Если вы не можете запустить PDF-файл через редакторскую проверку, вы всегда можете проверить орфографию, нажав клавишу F7или используяEdit => Check Spelling => In Fields, Comment, Editable Text