Как преобразовать звук динамика (голос) в текст в Windows 10?

Question 1

Похоже, на данный момент нет встроенной программы Windows, которая могла бы это сделать, хотя можно ожидать, что в будущем это произойдет, особенно если помощник Windows Cortana уже есть, а приложение Speech-To-Text уже доступно в меньшем масштабе.

Однако на данный момент необходимы «другие решения»:

Вам нужно найти модель ASR (=STT), что означает модель «автоматического распознавания речи» (=речь-в-текст).

Хороший теоретический обзор ASR можно найти по адресуhttps://maelfabien.github.io/machinelearning/speech_reco/#.

Поскольку этот вопрос касается практической стороны:

Вам нужно будет либо купить программу преобразования речи в текст - я однажды купилДракон Естественно Говорящийлидера рынка "Nuance", который продавался в сочетании сPhilips VoiceTracer. Это не реклама, это просто способ, которым я получил свою первую программу Speech-To-Text. Я никогда ее не тестировал, хотя это все еще в моем списке :).
Или вам нужно найти предварительно обученную модель/обучить модель самостоятельно.

Я просто скажукакЯ искал его, который является основным ответом, а не точные ссылки. StackExchange скорее не о сбросе некоторых продуктов или ссылок, что считается не совсем по теме. Я ничего не тестировал и не являюсь профессиональным пользователем.

В поисках моделей ASR я нашел три предварительно обученные модели в «Hugging Face» — сообществе искусственного интеллекта, которое предлагает, по-видимому, наиболее релевантный выбор моделей. Это хорошо, если сначала мне нужно найти немногочисленные, но релевантные результаты:https://huggingface.co/models?pipeline_tag=автоматическое-распознавание-речи. Затем я рассмотрел их подробно и обнаружил, что они обучены на моделях, которые находятся в открытом доступе на GitHub:

Два из них основаны на ESPnet. Помните, что ESPnet2 скоро появится. Демо доступно наhttps://github.com/espnet/espnet#asr-demo.
Модель Facebook основана на модели wav2vec.https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20.

Затем мы видим, что все начинается и заканчивается на GitHub, что не должно удивлять. На GitHub вы захотите поискать ASR, STT, Automatic Speech Recognition, Speech-To-Text и, возможно, просто «speech», как я и сделал, отсортировав результаты по звездам, чтобы найти «Mozilla DeepSpeech» как наиболее многообещающий проект:https://github.com/mozilla/DeepSpeech#project-deepspeech.

Для Chrome естьSpeechTexterкоторый поддерживает все различные диалекты испанского языка.

Вам следует попробовать бесплатную версиюGoogle Речь в Текст.

Кроме того, если вы выполните поиск по правильным ключевым словам и добавите свой язык, вы найдете модели, которые предварительно обучены на нужном вам языке, например

"речь испанская" приводит кhttps://github.com/luchovelez/Распознавание речи
"deepspeech spanish" показывает шесть результатов с небольшим количеством звезд или без них (что не означает, что они не будут работать):https://github.com/search?q=deepspeech+spanish&type=Repositories

Если вы продолжите поиск таким образом, вы найдете больше проектов. Обычно вам не нужны никакие навыки программирования, демо-версии — это скорее работа по копированию и вставке. Единственное, что нужно, — иметь под рукой правильный фреймворк программирования.

Помните, что некоторые модели или программы требуют выбранную частоту дискретизации в качестве входных данных, например 16 кГц. Иногда вам придется переформатировать ваши аудиофайлы или ваш аудиовход.

Answer