Windows 10-Lautsprecherton (Stimme) in Text umwandeln?

Question 1

Derzeit scheint es kein in Windows integriertes Programm zu geben, das dies kann, obwohl man in Zukunft damit rechnen kann, insbesondere wenn der Windows-Assistent Cortana bereits vorhanden ist und die Speech-To-Text-App bereits in kleinerem Umfang verfügbar ist.

Doch vorerst sind „andere Lösungen“ erforderlich:

Sie müssen nach einem ASR-Modell (=STT) suchen, also einem Modell für die automatische Spracherkennung (=Speech-To-Text).

Einen guten theoretischen Überblick über ASR finden Sie unterhttps://maelfabien.github.io/machinelearning/speech_reco/#.

Da es bei dieser Frage um die praktische Seite geht:

Sie müssen entweder ein Speech-To-Text-Programm kaufen - ich habe einmal gekauftDragon Natürlich Sprechenddes Marktführers "Nuance", das in Kombination mit einemPhilips VoiceTracer. Dies soll keine Werbung sein, es ist einfach die Art und Weise, wie ich mein erstes Spracherkennungsprogramm bekommen habe. Ich habe es nie ausprobiert, obwohl das noch auf meiner Liste steht :).
Oder Sie müssen nach einem vortrainierten Modell suchen / selbst ein Modell trainieren.

Ich werde es einfach sagenWieIch habe danach gesucht, das ist die Hauptantwort, nicht die genauen Links. Bei StackExchange geht es eher nicht darum, einige Produkte oder Links zu veröffentlichen, was als eher abseits des Themas gilt. Ich habe nichts getestet und bin kein professioneller Benutzer.

Auf der Suche nach ASR-Modellen bin ich bei „Hugging Face“ auf drei vortrainierte Modelle gestoßen. Dabei handelt es sich um eine KI-Community, die die scheinbar relevanteste Auswahl an Modellen anbietet. Gut, wenn ich zunächst nur wenige, aber relevante Ergebnisse finden möchte:https://huggingface.co/models?pipeline_tag=automatic-speech-recognition. Dann habe ich sie mir im Detail angesehen und festgestellt, dass sie mit Modellen trainiert wurden, die öffentlich auf GitHub verfügbar sind:

Zwei davon basieren auf ESPnet. Beachten Sie, dass ESPnet2 bald erscheinen wird. Eine Demo ist verfügbar unterhttps://github.com/espnet/espnet#asr-demo.
Das Facebook-Modell basiert auf dem wav2vec-Modell beihttps://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20.

Dann sehen wir hier, dass alles auf GitHub beginnt und endet, was nicht überraschen sollte. Auf GitHub würden Sie nach ASR, STT, Automatic Speech Recognition, Speech-To-Text und vielleicht einfach nur „Speech“ suchen wollen, wie ich es getan habe, indem ich die Ergebnisse nach Sternen sortiert habe, um „Mozilla DeepSpeech“ als das vielversprechendste Projekt zu finden:https://github.com/mozilla/DeepSpeech#project-deepspeech.

Für Chrome gibt esSprachtexterdas alle verschiedenen spanischen Dialekte unterstützt.

Sie sollten die kostenlose Version vonGoogle Spracherkennung.

Wenn Sie mit den richtigen Schlüsselwörtern suchen und Ihre Sprache hinzufügen, finden Sie Modelle, die in der von Ihnen benötigten Sprache vortrainiert sind, zum Beispiel

"Sprache Spanisch" führt zuhttps://github.com/luchovelez/SpeechRecognition
"deepspeech spanish" zeigt sechs Ergebnisse mit wenigen bis keinen Sternen (was nicht heißen soll, dass sie nicht funktionieren):https://github.com/search?q=deepspeech+spanish&type=Repositories

Wenn Sie so weitersuchen, werden Sie noch mehr Projekte finden. Programmierkenntnisse sind in der Regel nicht erforderlich, die Demos sind eher eine Art Copy-and-Paste-Arbeit. Das Einzige, was Sie brauchen, ist das richtige Programmier-Framework zur Hand zu haben.

Beachten Sie, dass einige Modelle oder Programme eine bestimmte Abtastrate als Eingabe benötigen, beispielsweise 16 KHz. Manchmal müssen Sie Ihre Audiodateien oder Ihren Audioeingang neu formatieren.

Answer