Dragon のような音声ディクテーション ソフトウェアは、なぜ話者側からしか機能しないのでしょうか?

Dragon のような音声ディクテーション ソフトウェアは、なぜ話者側からしか機能しないのでしょうか?

ノートパソコンや携帯電話で、私が言ったことを単に口述/入力するのではなく、電話の相手が言ったことを書き写してもらいたいです。なぜ Google や Nuance はそのような機能を有効にしないのでしょうか。そもそも可能なのでしょうか。それが機能するには何が必要ですか。

答え1

話しているとき、あなたの声はコンピュータのマイクとオーディオ ハードウェアを通じて録音されます。このオーディオ信号は、コンピュータ上のどのアプリケーションでも利用できます。Skype で誰かと話しているとき、音声信号は一連のパケットにエンコードされます。音声信号をデコードするには、Skype のプロトコルをリバース エンジニアリングする必要があります。

携帯電話をスピーカーフォン モードで通話している場合、音声認識を行うには音質が不十分な可能性があります。また、音声認識ソフトウェアは、自分の声と相手の声の両方を学習する必要があります。

Google がここでどのような関連性を持っているかはわかりません。

答え2

Dragon NaturallySpeaking は (Google とは異なり) 音声を単語に書き起こす前にトレーニングする必要があります。

Google は、誰かが Google Voice の自動応答機能にメッセージを残すと、通話の相手側のために音声をテキストに変換します。

通話中は音声品質が大きく変化することが多く、音声認識がさらに困難になることに注意してください。

関連情報