Ich möchte gedruckte Bücher, die ich besitze, in Audio umwandeln, indem ich sie mit OCR scanne und den Text dann durch eine TTS-Engine laufen lasse. Diese Titel sind nicht als E-Books verfügbar.
Da OCR kleine Fehler machen kann, insbesondere beim Konvertieren von Bildern mit alten Schriftarten, würde ich gerne eine OCR-Engine finden, die jeden Textbereich mit Metadaten versehen kann, die die von der Engine wahrgenommene Wahrscheinlichkeit einer korrekten Übereinstimmung oder eine Reihe anderer Möglichkeiten beschreiben. Sehen Sie sich beispielsweise die Voicemail-Transkription von Google Voice an, bei der jedes Wort in Grautönen hervorgehoben wird, die die Wahrscheinlichkeitsbewertung der Spracherkennungs-Engine anzeigen.
Kennen Sie Pakete, die dies anbieten?