Как преобразовать звук динамика (голос) в текст в Windows 10?

Как преобразовать звук динамика (голос) в текст в Windows 10?

Я понимаю, что могу управлять голосом в Windows 10, а также могу создавать "голос в текст" (диктовать). Есть ли способ просто отображать звук динамика (в данном случае, это говорит мой учитель испанского) в виде текста?

Это будет работать примерно как «автоматические субтитры» на YouTube, просто отображая все сказанное как (испанский) текст.

  1. Диктовка работает на основе микрофонного входа, я бы предпочел использовать выход динамика в качестве источника.
  2. Диктовка останавливается, мне понадобится постоянный голосовой перевод текста

Есть ли способ настроить Windows для этого? Или другие решения?

решение1

Похоже, на данный момент нет встроенной программы Windows, которая могла бы это сделать, хотя можно ожидать, что в будущем это произойдет, особенно если помощник Windows Cortana уже есть, а приложение Speech-To-Text уже доступно в меньшем масштабе.

Однако на данный момент необходимы «другие решения»:

Вам нужно найти модель ASR (=STT), что означает модель «автоматического распознавания речи» (=речь-в-текст).

Хороший теоретический обзор ASR можно найти по адресуhttps://maelfabien.github.io/machinelearning/speech_reco/#.

Поскольку этот вопрос касается практической стороны:

  • Вам нужно будет либо купить программу преобразования речи в текст - я однажды купилДракон Естественно Говорящийлидера рынка "Nuance", который продавался в сочетании сPhilips VoiceTracer. Это не реклама, это просто способ, которым я получил свою первую программу Speech-To-Text. Я никогда ее не тестировал, хотя это все еще в моем списке :).
  • Или вам нужно найти предварительно обученную модель/обучить модель самостоятельно.

Я просто скажукакЯ искал его, который является основным ответом, а не точные ссылки. StackExchange скорее не о сбросе некоторых продуктов или ссылок, что считается не совсем по теме. Я ничего не тестировал и не являюсь профессиональным пользователем.

В поисках моделей ASR я нашел три предварительно обученные модели в «Hugging Face» — сообществе искусственного интеллекта, которое предлагает, по-видимому, наиболее релевантный выбор моделей. Это хорошо, если сначала мне нужно найти немногочисленные, но релевантные результаты:https://huggingface.co/models?pipeline_tag=автоматическое-распознавание-речи. Затем я рассмотрел их подробно и обнаружил, что они обучены на моделях, которые находятся в открытом доступе на GitHub:

Затем мы видим, что все начинается и заканчивается на GitHub, что не должно удивлять. На GitHub вы захотите поискать ASR, STT, Automatic Speech Recognition, Speech-To-Text и, возможно, просто «speech», как я и сделал, отсортировав результаты по звездам, чтобы найти «Mozilla DeepSpeech» как наиболее многообещающий проект:https://github.com/mozilla/DeepSpeech#project-deepspeech.

Для Chrome естьSpeechTexterкоторый поддерживает все различные диалекты испанского языка.

Вам следует попробовать бесплатную версиюGoogle Речь в Текст.

Кроме того, если вы выполните поиск по правильным ключевым словам и добавите свой язык, вы найдете модели, которые предварительно обучены на нужном вам языке, например

Если вы продолжите поиск таким образом, вы найдете больше проектов. Обычно вам не нужны никакие навыки программирования, демо-версии — это скорее работа по копированию и вставке. Единственное, что нужно, — иметь под рукой правильный фреймворк программирования.

Помните, что некоторые модели или программы требуют выбранную частоту дискретизации в качестве входных данных, например 16 кГц. Иногда вам придется переформатировать ваши аудиофайлы или ваш аудиовход.

решение2

Вот чем я сейчас пользуюсь:

  1. Я использовал программное обеспечение (в моем случае VOICEMEETER), которое позволяет мне перенаправлять мой звуковой выход на 2 устройства. Внешнее программное обеспечение используется, поскольку Windows Mixer в моем случае не является вариантом (Микшер Windows "не микширует" с гарнитурой, а с другим выходным устройством. Почему?).
  2. VOICEMEETER позволяет мне направлять выходной звук обратно на (виртуальное) входное устройство. Так что теперь у меня есть ВИРТУАЛЬНОЕ входное устройство, которое считывает выходной звук обратно.
  3. Далее я настраиваю микрофон в Google Chrome на это ВИРТУАЛЬНОЕ устройство вводаХромированный микрофон
  4. Следовательно, я могу использовать Google translate для создания транскрипции. Это работает с любым звуком, поэтому я также могу воспроизводить музыку или видео.Google translate показывает расшифровку.

Краткое резюме:

  • Мой вариант использования заключается в том, что я хочу увидеть стенограмму речи моего учителя испанского языка.
  • Теперь я могу просто зайти в «Google Translate» и нажать кнопку микрофона.
  • Я даже могу видеть текст на испанском и английском языках одновременно.
  • Мне нужен VOICEMEETER, потому что мне все еще нужно слышать своего учителя (конференция Zoom) и одновременно перенаправлять вывод
  • Микшер Windows у меня не работает, см. ссылку на пост
  • Я пробовал другие приложения, такие как Firefox или Worddict. Проблема в том, что я не могу изменить МИКРОФОН (он использует устройство ввода ПО УМОЛЧАНИЮ), а мне нужен сам МИКРОФОН для разговора с учителем. СмотритеИзменить микрофон только для Word/Outlook Dictate (Win10)?
  • Я никак не связан с VOICEMEETER, в любом случае, респект этим ребятам — отличный интерфейс и инструмент.

Недостатки:

  • Google Translate имеет ограничение по количеству слов/длительности — в моем случае это не имеет значения, но может иметь значение для других случаев использования.
  • Решение пока основано на браузере.

Юридический FOO:

  • убедитесь, что вы соответствуете требованиям законодательства вашей страны, проверьте, законно ли создавать стенограмму конференции/аудио/видеозвонка
  • Также проверьте Условия/Положения Google и т. д., чтобы убедиться, что этот подход подпадает под действие правил.

Связанный контент