Windows 10 揚聲器聲音(語音)轉文字?

Windows 10 揚聲器聲音(語音)轉文字?

我知道我可以語音控制 Windows 10,並且可以創建“語音到文字”(聽寫)。有沒有辦法簡單地將揚聲器聲音(在這種情況下是我的西班牙語老師說話)顯示為文字?

它的工作原理有點像 YouTube 的“自動字幕”,只是將所說的所有內容顯示為(西班牙語)文字。

  1. 聽寫基於麥克風輸入工作,我寧願需要使用揚聲器輸出作為來源。
  2. 聽寫停止,我需要永久的語音到文字翻譯

有什麼方法可以配置 Windows 來做到這一點嗎?或其他解決方案?

答案1

似乎目前還沒有 Windows 內建程式可以做到這一點,儘管將來可以期待這一點,特別是如果 Windows 助理 Cortana 已經存在,並且 Speech-To-Text 應用程式已經在較小的裝置上可用。

然而,目前還需要「其他解決方案」:

您需要搜尋 ASR (=STT) 模型,即「自動語音辨識」(=Speech-To-Text) 模型

ASR 的精彩理論概述位於https://maelfabien.github.io/machinelearning/speech_reco/#

因為這個問題是關於它的​​實際方面的:

  • 您需要購買語音轉文字程式 - 我曾經購買過龍自然說話市場領導者「Nuance」的產品與飛利浦語音追蹤器。這不會做任何廣告,這只是我獲得第一個語音到文字程式的方式。我從未測試過它,儘管這樣做仍然在我的清單上:)。
  • 或者您需要搜尋預訓練模型/自己訓練模型。

我就告訴如何我搜索了它,這是主要答案,而不是確切的連結。 StackExchange 並不是要刪除某些產品或鏈接,這被認為是相當偏離主題的。我沒有測試過任何東西,我也不是專業用戶。

在搜尋ASR 模型時,我在「Hugging Face」找到了三個預訓練模型,這是一個人工智慧社區,提供了看似最相關的模型選擇,如果我一開始只想找到很少但相關的結果,那麼這很好:https://huggingface.co/models?pipeline_tag=automatic-speech-recognition。然後我詳細查看了它們,發現它們是在 GitHub 上公開的模型上進行訓練的:

然後我們在這裡看到一切都在 GitHub 上開始和結束,這應該不足為奇。在GitHub 上,您可能想要搜尋ASR、STT、自動語音識別、語音轉文本,也許只是搜尋“語音”,就像我所做的那樣,按星號對結果進行排序,以發現“Mozilla DeepSpeech”是最重要的有前途的項目:https://github.com/mozilla/DeepSpeech#project-deepspeech

對於 Chrome,有語音文字編輯器它支援西班牙語的所有各種方言。

您應該嘗試免費版本谷歌語音轉文本

此外,如果您使用正確的關鍵字進行搜尋並添加您的語言,您將找到以您所需的語言進行預先訓練的模型,例如

如果你繼續這樣尋找,你會發現更多的項目。您通常不需要任何程式設計技能,演示更多的是複製和貼上工作。唯一需要的就是手邊有正確的程式框架。

請注意,某些模型或程式需要選定的取樣率作為輸入,例如 16 KHz。有時您需要重新格式化音訊檔案或音訊輸入。

答案2

這是我目前正在使用的:

  1. 我使用了一個軟體(在我的例子中是 VOICEMEETER),它允許我將聲音輸出重新導向到 2 個裝置。使用外部軟體是因為在我的情況下 Windows Mixer 是沒有選項的(Windows 混音器“不與耳機混合”,而是與另一個輸出裝置混合。為什麼?)。
  2. VOICEMEETER 允許我將輸出聲音路由回(虛擬)輸入設備。所以我現在有了一個虛擬輸入設備,可以讀回輸出聲音。
  3. 接下來,我將 Google Chrome 中的麥克風設定為該虛擬輸入設備鍍鉻麥克風
  4. 因此我可以使用谷歌翻譯來創建文字記錄。這適用於任何聲音,因此我也可以播放音樂或影片。谷歌翻譯顯示文字記錄

一點總結:

  • 我的用例是,我想查看我的西班牙語老師的演講記錄
  • 我現在可以簡單地實現“谷歌翻譯”並按下麥克風按鈕
  • 我甚至可以同時看到西班牙語和英語文本
  • 我需要 VOICEMEETER 因為我仍然需要聽到我的老師(Zoom 會議)並同時重定向輸出
  • Windows 混音器對我不起作用,請參閱連結的帖子
  • 我嘗試過其他應用程序,例如 Firefox 或 Word 聽寫。這裡的問題是我無法更改麥克風(它使用預設輸入裝置),我需要麥克風本身來與我的老師交談。看僅更改 Word/Outlook 聽寫麥克風 (Win10)?
  • 我與 VOICEMEETER 沒有任何關係,無論如何,我要向那些傢伙致敬——漂亮的用戶界面和工具。

缺點:

  • 谷歌翻譯有單字/持續時間限制 - 在我的情況下它是無關緊要的,但對於其他用例可能很重要
  • 到目前為止,解決方案是基於瀏覽器的

法律法規:

  • 確保您符合所在國家/地區的法律要求,檢查建立會議/音訊/視訊通話的記錄是否合法
  • 另請檢查 Google 等條款/條件以驗證是否涵蓋此方法

相關內容