¿Sonido del altavoz de Windows 10 (voz) a texto?

Question 1

Parece que no hay ningún programa integrado en Windows que pueda hacer eso por ahora, aunque se puede esperar que esto suceda en el futuro, especialmente si el asistente de Windows Cortana ya está ahí, y con la aplicación Speech-To-Text ya disponible en un formato más pequeño. escala.

Sin embargo, por ahora, se necesitan "otras soluciones":

Debe buscar un modelo ASR (=STT), es decir, modelo de "reconocimiento automático de voz" (=voz a texto).

Una buena descripción teórica de ASR está enhttps://maelfabien.github.io/machinelearning/speech_reco/#.

Como esta pregunta trata sobre el lado práctico:

Necesitará comprar un programa de voz a texto (yo lo compré una vez)Dragón Naturalmente Hablandodel líder del mercado "Nuance" que se vendió en combinación con unRastreador de voz de Philips. Esto no pretende anunciar nada, es simplemente la forma en que obtuve mi primer programa de voz a texto. Nunca lo he probado, aunque hacerlo todavía está en mi lista :).
O necesita buscar un modelo previamente entrenado/entrenar un modelo usted mismo.

solo lo dirécómoLo busqué, que es la respuesta principal, no los enlaces exactos. StackExchange no se trata de eliminar algunos productos o enlaces, lo que se considera bastante fuera de tema. No he probado nada y no soy un usuario profesional.

Al buscar modelos ASR, encontré tres modelos previamente entrenados en "Hugging Face", que es una comunidad de IA que ofrece la opción de modelos aparentemente más relevante, bueno si solo quiero encontrar pocos pero relevantes resultados al principio:https://huggingface.co/models?pipeline_tag=reconocimiento-automático-de-voz. Luego los miré en detalle y descubrí que estaban entrenados en modelos que están disponibles públicamente en GitHub:

Dos están basados en ESPnet. Tenga en cuenta que ESPnet2 llegará pronto. Una demostración está disponible enhttps://github.com/espnet/espnet#asr-demo.
El modelo de Facebook se basa en el modelo wav2vec enhttps://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20.

Luego vemos aquí que todo comienza y termina en GitHub, lo cual no debería sorprender. En GitHub, querrás buscar ASR, STT, reconocimiento automático de voz, voz a texto y quizás simplemente "voz", como hice yo, ordenando los resultados por estrellas, para encontrar que "Mozilla DeepSpeech" sea el más proyecto prometedor:https://github.com/mozilla/DeepSpeech#project-deepspeech.

Para Chrome, hayTexto de vozque soporta todos los diversos dialectos del español.

Deberías probar la versión gratuita deVoz a texto de Google.

Además, si busca con las palabras clave correctas y agrega su idioma, encontrará modelos que están previamente entrenados en el idioma que necesita, por ejemplo.

"habla español" conduce ahttps://github.com/luchovelez/SpeechRecognition
"deepspeech Spanish" muestra seis resultados con pocas o ninguna estrella (lo que no quiere decir que no funcionarán):https://github.com/search?q=deepspeech+spanish&type=Repositorios

Si sigues buscando así encontrarás más proyectos. Por lo general, no necesitarás conocimientos de programación; las demostraciones son más bien un trabajo de copiar y pegar. Lo único que se necesita es tener a mano el marco de programación adecuado.

Tenga en cuenta que algunos modelos o programas necesitan una frecuencia de muestreo elegida como entrada, por ejemplo 16 KHz. A veces necesitarás reformatear tus archivos de audio o tu entrada de audio.

Answer