確率データを出力するOCR

2024-4-11 • tag-icon

所有している印刷本を OCR でスキャンし、テキストを TTS エンジンで実行して音声に変換したいと考えています。これらのタイトルは電子書籍として入手できません。

OCR は、特に古い書体を含む画像を変換するときに小さなエラーを起こすことがあるため、エンジンが認識した正しい一致の可能性やその他の可能性の配列を説明するメタデータでテキストの各領域にタグを付けることができる OCR エンジンを見つけたいと考えています。たとえば、Google Voice のボイスメールの文字起こしでは、各単語が灰色の濃淡で強調表示され、音声テキスト変換エンジンの確率ランキングが示されます。

これを提供するパッケージをご存知ですか?

関連情報