為什麼像 Dragon 這樣的音訊聽寫軟體只能在說話者一側工作?

為什麼像 Dragon 這樣的音訊聽寫軟體只能在說話者一側工作?

我不希望我的筆記型電腦或手機只是聽寫/輸入我所說的話,而是寫下電話另一端的呼叫者所說的話。為什麼 Google 或 Nuance 不啟用該功能?有可能嗎?要實現這一點需要什麼?

答案1

當您說話時,您的聲音將透過電腦的麥克風和音訊硬體錄製。此音訊訊號可供電腦上的任何應用程式使用。當您透過 Skype 與某人通話時,語音訊號會被編碼在一堆資料包中。您需要對 Skype 協定進行逆向工程才能解碼語音訊號。

如果您在免持模式下使用手機通話,則品質可能不足以進行語音辨識。此外,語音辨識軟體需要根據您的聲音和其他人的聲音進行訓練。

我不確定谷歌在這裡有什麼相關性。

答案2

Dragon NaturallySpeaking(與 Google 不同)需要訓練才能將語音轉錄為單字。

當有人在 Google 語音自動回覆器上留言時,Google 會為線路另一端的呼叫者進行語音到文字轉錄。

請注意,通話期間語音品質通常會發生很大變化,這使得語音辨識變得更加困難。

相關內容