Existe uma ferramenta que cria um arquivo de áudio a partir de texto escrito (NÃO é (!) sobre fala em texto). Existem muitas ferramentas que fazem isso, mas não encontrei nenhuma que seja baseada em carimbo de data/hora.
Como já tenho os arquivos de legenda/cc, quero usar esses arquivos existentes. E o momento precisa ser considerado. Algo assim:
00:13 Say this
00:17 Say something else
Portanto, após 13 segundos o 1º texto deve ser falado, o segundo após 17 segundos.