¿Sonido del altavoz de Windows 10 (voz) a texto?

¿Sonido del altavoz de Windows 10 (voz) a texto?

Entiendo que puedo controlar por voz Windows 10, así como también puedo crear "voz a texto" (dictar). ¿Hay alguna manera de mostrar simplemente el sonido del hablante (en este caso, mi profesor de español hablando) como texto?

Funcionará un poco como los "subtítulos automáticos" de YouTube, simplemente mostrando todo lo dicho como texto (español).

  1. Dictar funciona según la entrada de micrófono, preferiría usar la salida del altavoz como fuente.
  2. Dictar paradas, necesitaría una traducción permanente de voz a texto

¿Alguna forma de configurar Windows para hacer eso? ¿U otras soluciones?

Respuesta1

Parece que no hay ningún programa integrado en Windows que pueda hacer eso por ahora, aunque se puede esperar que esto suceda en el futuro, especialmente si el asistente de Windows Cortana ya está ahí, y con la aplicación Speech-To-Text ya disponible en un formato más pequeño. escala.

Sin embargo, por ahora, se necesitan "otras soluciones":

Debe buscar un modelo ASR (=STT), es decir, modelo de "reconocimiento automático de voz" (=voz a texto).

Una buena descripción teórica de ASR está enhttps://maelfabien.github.io/machinelearning/speech_reco/#.

Como esta pregunta trata sobre el lado práctico:

  • Necesitará comprar un programa de voz a texto (yo lo compré una vez)Dragón Naturalmente Hablandodel líder del mercado "Nuance" que se vendió en combinación con unRastreador de voz de Philips. Esto no pretende anunciar nada, es simplemente la forma en que obtuve mi primer programa de voz a texto. Nunca lo he probado, aunque hacerlo todavía está en mi lista :).
  • O necesita buscar un modelo previamente entrenado/entrenar un modelo usted mismo.

solo lo dirécómoLo busqué, que es la respuesta principal, no los enlaces exactos. StackExchange no se trata de eliminar algunos productos o enlaces, lo que se considera bastante fuera de tema. No he probado nada y no soy un usuario profesional.

Al buscar modelos ASR, encontré tres modelos previamente entrenados en "Hugging Face", que es una comunidad de IA que ofrece la opción de modelos aparentemente más relevante, bueno si solo quiero encontrar pocos pero relevantes resultados al principio:https://huggingface.co/models?pipeline_tag=reconocimiento-automático-de-voz. Luego los miré en detalle y descubrí que estaban entrenados en modelos que están disponibles públicamente en GitHub:

Luego vemos aquí que todo comienza y termina en GitHub, lo cual no debería sorprender. En GitHub, querrás buscar ASR, STT, reconocimiento automático de voz, voz a texto y quizás simplemente "voz", como hice yo, ordenando los resultados por estrellas, para encontrar que "Mozilla DeepSpeech" sea el más proyecto prometedor:https://github.com/mozilla/DeepSpeech#project-deepspeech.

Para Chrome, hayTexto de vozque soporta todos los diversos dialectos del español.

Deberías probar la versión gratuita deVoz a texto de Google.

Además, si busca con las palabras clave correctas y agrega su idioma, encontrará modelos que están previamente entrenados en el idioma que necesita, por ejemplo.

Si sigues buscando así encontrarás más proyectos. Por lo general, no necesitarás conocimientos de programación; las demostraciones son más bien un trabajo de copiar y pegar. Lo único que se necesita es tener a mano el marco de programación adecuado.

Tenga en cuenta que algunos modelos o programas necesitan una frecuencia de muestreo elegida como entrada, por ejemplo 16 KHz. A veces necesitarás reformatear tus archivos de audio o tu entrada de audio.

Respuesta2

Esto es lo que estoy usando actualmente:

  1. He utilizado un software (en mi caso VOICEMEETER) que me permite redirigir mi salida de sonido a 2 dispositivos. Se utiliza un software externo porque Windows Mixer en mi caso no es una opción (El mezclador de Windows "no se mezcla" con los auriculares, sino con otro dispositivo de salida. ¿Por qué?).
  2. VOICEMEETER me permite redirigir el sonido de salida a un dispositivo de entrada (virtual). Ahora tengo un dispositivo de entrada VIRTUAL que lee el sonido de salida.
  3. Luego configuro el micrófono en Google Chrome en ese dispositivo de entrada VIRTUAL.Micrófono cromado
  4. Por lo tanto, puedo utilizar el traductor de Google para crear una transcripción. Esto funciona con cualquier sonido, por lo que también puedo reproducir música o vídeo.Traductor de Google que muestra la transcripción..

Un pequeño resumen:

  • Mi caso de uso es que quiero ver la transcripción de mi profesor de español hablando.
  • Ahora puedo lograrlo simplemente yendo a "Google Translate" y presionando el botón MIC.
  • Incluso me es posible ver el texto en español e inglés al mismo tiempo.
  • Necesito VOICEMEETER porque todavía necesito escuchar a mi maestro (conferencia de Zoom) y redirigir la salida al mismo tiempo.
  • El mezclador de Windows no funcionó para mí, vea la publicación vinculada
  • He probado otras aplicaciones como Firefox o Word dicta. El problema aquí es que no puedo cambiar el MIC (utiliza el dispositivo de entrada PREDETERMINADO) y necesito el MIC para hablar con mi maestro. Ver¿Cambiar micrófono solo para Word/Outlook Dictate (Win10)?
  • No estoy afiliado de ninguna manera con VOICEMEETER, de todos modos, felicitaciones a esos muchachos: buena interfaz de usuario y herramienta.

Deficiencias:

  • Google Translate tiene un límite de palabras/duración; en mi caso es irrelevante, pero podría ser importante para otros casos de uso.
  • La solución está basada en el navegador hasta ahora.

Foo legal:

  • asegúrese de cumplir con los requisitos legales en su país, verifique si es legal crear una transcripción de una conferencia/audio/videollamada
  • Consulte también los Términos y condiciones de Google, etc. para verificar si este enfoque está cubierto.

información relacionada