音声をテキストに変換したり、テキストを音声に変換したりするアプリを構築しようとしています。Google と IBM のモジュールを試しましたが、オフラインで利用できる他のモジュールを提案していただけますか。
答え1
以下はPythonでサポートされている音声認識モジュールまたはライブラリです。オフラインで利用できるライブラリについても触れています。こちらを参照してください。書類詳細については
- CMU Sphinx (オフラインで動作)
- Google音声認識
- Google クラウド音声 API
- ウィット
- マイクロソフト Azure スピーチ
- Microsoft Bing 音声認識 (非推奨)
- ハウンドファイAPI
- IBM 音声テキスト変換
- スノーボーイ ホットワード検出 (オフラインでも動作)
- テンソルフロー
- Vosk API (オフラインで動作)
- OpenAI ウィスパー(オフラインでも動作)
答え2
恥知らずなプラグイン :)
Picovoice は音声データもデバイス上で処理し、無料プランでは 1 か月あたり 6000 分 (100 時間) が提供されます。 https://picovoice.ai/
以下は 3 行の Python による STT チュートリアルです。 https://picovoice.ai/blog/transcribe-speech-to-text-with-three-lines-of-python/
-picovoiceで働く