Windows 10 スピーカーのサウンド (音声) をテキストに変換しますか?

Question 1

今のところ、それを実行できる Windows 組み込みプログラムはないようですが、特に Windows アシスタントの Cortana がすでに存在し、Speech-To-Text アプリが小規模ですでに利用可能になっている場合は、将来的にはこれが期待できます。

しかし、今のところは「他の解決策」が必要です。

ASR（=STT）モデル、つまり「自動音声認識」（=音声テキスト変換）モデルを検索する必要があります。

ASRの理論的な概要は以下にあります。https://maelfabien.github.io/machinelearning/speech_reco/#。

この質問は実用的な側面に関するものです。

音声テキスト変換プログラムを購入する必要があります。私は一度購入しました。ドラゴンナチュラリースピーキング市場リーダー「ニュアンス」と組み合わせて販売されたフィリップスボイストレーサーこれは何かを宣伝するものではありません。これは私が最初の音声テキスト変換プログラムを入手した方法にすぎません。まだテストしていませんが、テストすることはまだ私のリストに載っています :)。
または、事前トレーニング済みのモデルを検索するか、自分でモデルをトレーニングする必要があります。

ただ伝えますどうやって私は、正確なリンクではなく、主な答えであるそれを探しました。StackExchange は、むしろトピック外と見なされる製品やリンクをいくつかドロップするものではありません。私は何もテストしておらず、プロのユーザーでもありません。

ASR モデルを検索したところ、「Hugging Face」で 3 つの事前トレーニング済みモデルを見つけました。これは、最も関連性の高いモデルの選択肢を提供している AI コミュニティであり、最初は少数だが関連性の高い結果を見つけたいだけの場合に適しています。https://huggingface.co/models?pipeline_tag=自動音声認識その後、詳細に調べたところ、GitHub で公開されているモデルでトレーニングされていることがわかりました。

2つはESPnetに基づいています。ESPnet2はもうすぐリリースされる予定です。デモは以下から入手できます。https://github.com/espnet/espnet#asr-demo。
Facebookモデルはwav2vecモデルに基づいています。https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20。

ここで、すべてが GitHub で始まり、そこで終わることがわかりますが、これは驚くべきことではありません。GitHub では、ASR、STT、自動音声認識、音声テキスト変換、そしておそらく「音声」だけを検索し、私が行ったように、結果を星で並べ替えて、「Mozilla DeepSpeech」が最も有望なプロジェクトであることがわかります。https://github.com/mozilla/DeepSpeech#プロジェクト-deepspeech。

Chromeの場合、スピーチテキストスペイン語のさまざまな方言をすべてサポートします。

無料版をお試しくださいGoogle 音声テキスト変換。

また、適切なキーワードで検索し、言語を追加すると、必要な言語で事前トレーニングされたモデルが見つかります。たとえば、

「スピーチスペイン語」はhttps://github.com/luchovelez/音声認識
「deepspeech spanish」では、星がほとんどないかまったくない 6 つの結果が表示されます (ただし、機能しないというわけではありません)。https://github.com/search?q=deepspeech+spanish&type=リポジトリ

このように検索を続けると、さらに多くのプロジェクトが見つかります。通常、プログラミングスキルは必要ありません。デモはコピーアンドペーストの作業です。必要なのは、適切なプログラミングフレームワークを用意することだけです。

一部のモデルまたはプログラムでは、入力として選択したサンプルレート (たとえば 16 KHz) が必要になることに注意してください。場合によっては、オーディオファイルまたはオーディオ入力を再フォーマットする必要があります。

Answer