Gostaria de converter livros impressos que possuo em áudio, digitalizando-os com OCR e depois executando o texto por meio de um mecanismo TTS. Esses títulos não estão disponíveis como e-books.
Como o OCR pode cometer pequenos erros, especialmente ao converter imagens contendo fontes antigas, eu gostaria de encontrar um mecanismo de OCR que pudesse marcar cada região do texto com metadados que descrevessem a probabilidade percebida pelo mecanismo de uma correspondência correta ou uma série de outras possibilidades. Por exemplo, veja a transcrição do correio de voz do Google Voice, que destaca cada palavra em tons de cinza, indicando a classificação de probabilidade do mecanismo de fala para texto.
Você conhece algum pacote que ofereça isso?