Windows 10-Lautsprecherton (Stimme) in Text umwandeln?

Windows 10-Lautsprecherton (Stimme) in Text umwandeln?

Ich verstehe, dass ich Windows 10 per Sprache steuern und „Sprache in Text“ umwandeln (diktieren) kann. Gibt es eine Möglichkeit, den Sprecherton (in diesem Fall die Stimme meines Spanischlehrers) einfach als Text anzuzeigen?

Es soll ähnlich wie die „automatischen Untertitel“ von YouTube funktionieren und einfach alles Gesagte als (spanischer) Text anzeigen.

  1. Das Diktieren funktioniert über den Mikrofoneingang, ich würde lieber den Lautsprecherausgang als Quelle verwenden.
  2. Diktieren stoppt, ich würde eine permanente Sprache-zu-Text-Übersetzung benötigen

Gibt es eine Möglichkeit, Windows dafür zu konfigurieren? Oder andere Lösungen?

Antwort1

Derzeit scheint es kein in Windows integriertes Programm zu geben, das dies kann, obwohl man in Zukunft damit rechnen kann, insbesondere wenn der Windows-Assistent Cortana bereits vorhanden ist und die Speech-To-Text-App bereits in kleinerem Umfang verfügbar ist.

Doch vorerst sind „andere Lösungen“ erforderlich:

Sie müssen nach einem ASR-Modell (=STT) suchen, also einem Modell für die automatische Spracherkennung (=Speech-To-Text).

Einen guten theoretischen Überblick über ASR finden Sie unterhttps://maelfabien.github.io/machinelearning/speech_reco/#.

Da es bei dieser Frage um die praktische Seite geht:

  • Sie müssen entweder ein Speech-To-Text-Programm kaufen - ich habe einmal gekauftDragon Natürlich Sprechenddes Marktführers "Nuance", das in Kombination mit einemPhilips VoiceTracer. Dies soll keine Werbung sein, es ist einfach die Art und Weise, wie ich mein erstes Spracherkennungsprogramm bekommen habe. Ich habe es nie ausprobiert, obwohl das noch auf meiner Liste steht :).
  • Oder Sie müssen nach einem vortrainierten Modell suchen / selbst ein Modell trainieren.

Ich werde es einfach sagenWieIch habe danach gesucht, das ist die Hauptantwort, nicht die genauen Links. Bei StackExchange geht es eher nicht darum, einige Produkte oder Links zu veröffentlichen, was als eher abseits des Themas gilt. Ich habe nichts getestet und bin kein professioneller Benutzer.

Auf der Suche nach ASR-Modellen bin ich bei „Hugging Face“ auf drei vortrainierte Modelle gestoßen. Dabei handelt es sich um eine KI-Community, die die scheinbar relevanteste Auswahl an Modellen anbietet. Gut, wenn ich zunächst nur wenige, aber relevante Ergebnisse finden möchte:https://huggingface.co/models?pipeline_tag=automatic-speech-recognition. Dann habe ich sie mir im Detail angesehen und festgestellt, dass sie mit Modellen trainiert wurden, die öffentlich auf GitHub verfügbar sind:

Dann sehen wir hier, dass alles auf GitHub beginnt und endet, was nicht überraschen sollte. Auf GitHub würden Sie nach ASR, STT, Automatic Speech Recognition, Speech-To-Text und vielleicht einfach nur „Speech“ suchen wollen, wie ich es getan habe, indem ich die Ergebnisse nach Sternen sortiert habe, um „Mozilla DeepSpeech“ als das vielversprechendste Projekt zu finden:https://github.com/mozilla/DeepSpeech#project-deepspeech.

Für Chrome gibt esSprachtexterdas alle verschiedenen spanischen Dialekte unterstützt.

Sie sollten die kostenlose Version vonGoogle Spracherkennung.

Wenn Sie mit den richtigen Schlüsselwörtern suchen und Ihre Sprache hinzufügen, finden Sie Modelle, die in der von Ihnen benötigten Sprache vortrainiert sind, zum Beispiel

Wenn Sie so weitersuchen, werden Sie noch mehr Projekte finden. Programmierkenntnisse sind in der Regel nicht erforderlich, die Demos sind eher eine Art Copy-and-Paste-Arbeit. Das Einzige, was Sie brauchen, ist das richtige Programmier-Framework zur Hand zu haben.

Beachten Sie, dass einige Modelle oder Programme eine bestimmte Abtastrate als Eingabe benötigen, beispielsweise 16 KHz. Manchmal müssen Sie Ihre Audiodateien oder Ihren Audioeingang neu formatieren.

Antwort2

Folgendes verwende ich derzeit:

  1. Ich habe eine Software (in meinem Fall VOICEMEETER) verwendet, mit der ich meine Tonausgabe auf 2 Geräte umleiten kann. Eine externe Software wird verwendet, da Windows Mixer in meinem Fall keine Option ist (Windows-Mixer „mischt“ nicht mit Headset, aber mit einem anderen Ausgabegerät. Warum?).
  2. VOICEMEETER ermöglicht es mir, den Ausgabeton an ein (virtuelles) Eingabegerät zurückzuleiten. So habe ich jetzt ein VIRTUELLES Eingabegerät, das den Ausgabeton zurückliest.
  3. Als nächstes stelle ich das Mikrofon in Google Chrome auf dieses VIRTUELLE Eingabegerät einChrom-Mikrofon
  4. Daher kann ich Google Translate verwenden, um ein Transkript zu erstellen. Dies funktioniert mit jedem Ton, sodass ich auch Musik oder Videos abspielen kann.Google Übersetzer zeigt das Transkript.

Eine kleine Zusammenfassung:

  • Mein Anwendungsfall ist, dass ich das Transkript meines Spanischlehrers sehen möchte, der spricht
  • Ich kann jetzt einfach erreichen, dass ich zu "Google Translate" gehe und die MIC-Taste drücke
  • Es ist mir sogar möglich, den spanischen UND den englischen Text gleichzeitig zu sehen
  • Ich brauche VOICEMEETER, weil ich meinen Lehrer weiterhin hören muss (Zoom-Konferenz) und gleichzeitig die Ausgabe umleiten muss
  • Bei mir funktionierte der Windows-Mixer nicht, siehe verlinkten Beitrag
  • Ich habe andere Apps wie Firefox oder Word dictate ausprobiert. Das Problem hier ist, dass ich das Mikrofon nicht ändern kann (es verwendet das STANDARD-Eingabegerät) und ich das Mikrofon selbst brauche, um mit meinem Lehrer zu sprechen. SieheMikrofon nur für Word/Outlook Diktieren ändern (Win10)?
  • Ich bin in keiner Weise mit VOICEMEETER verbunden, trotzdem ein großes Lob an die Jungs – schöne Benutzeroberfläche und tolles Tool.

Mängel:

  • Google Translate hat eine Wort-/Dauerbeschränkung - in meinem Fall ist das irrelevant, aber für andere Anwendungsfälle könnte es wichtig sein
  • Die Lösung ist bisher browserbasiert

Rechtlicher Geschäftsführer:

  • Stellen Sie sicher, dass Sie die gesetzlichen Anforderungen in Ihrem Land erfüllen. Prüfen Sie, ob es legal ist, ein Transkript einer Konferenz/eines Audio-/Videoanrufs zu erstellen.
  • Überprüfen Sie auch die Allgemeinen Geschäftsbedingungen von Google usw., um zu überprüfen, ob dieser Ansatz abgedeckt ist

verwandte Informationen