Adobe Acrobat 2017 を使用して OCR を使用すると、同じページ上の同じテキストが認識されないことがわかりました。たとえば、同じページに Dr. Thandabout という単語が 15 回ある場合、この名前は 12 回しか認識されません。この問題について、どなたかアドバイスをいただけませんか。
答え1
OCR は 100% 正確ではないため、PDF の OCR 後に編集レビューを行う必要があります。
私の経験から、OCR の結果から推定 (意見を述べます) すると次のようになります。
- サンセリフ: 95% 正確
- セリフ: 90% 正確
- 等幅フォント: 80% の精度
- 装飾セリフ: 75% 正確
- 筆記体: 50% 正確
もちろん、上記の推定値は、PDF がスキャンされておらず、ゴミのない画像ベースの PDF である場合のみです。
PDFを編集で実行できない場合は、F7キーを押してスペルチェックするか、Edit => Check Spelling => In Fields, Comment, Editable Text