Windows 10 스피커 사운드(음성)를 텍스트로?

Windows 10 스피커 사운드(음성)를 텍스트로?

나는 Windows 10을 음성으로 제어할 수 있을 뿐만 아니라 "음성을 텍스트로"(받아쓰기)를 생성할 수 있다는 것을 이해합니다. 스피커 사운드(이 경우 스페인어 선생님이 말씀하시는 소리)를 텍스트로 표시하는 방법이 있나요?

이는 YouTube "자동 캡션"과 약간 유사하게 작동하며, 단순히 말한 모든 내용을 (스페인어) 텍스트로 표시합니다.

  1. Dictate는 MIC 입력을 기반으로 작동하므로 스피커 출력을 소스로 사용해야 합니다.
  2. 받아쓰기가 중지됩니다. 영구 음성-텍스트 번역이 필요합니다.

그렇게 하도록 Windows를 구성하는 방법이 있나요? 아니면 다른 솔루션?

답변1

현재로서는 이를 수행할 수 있는 Windows 내장 프로그램이 없는 것처럼 보입니다. 하지만 미래에는 이를 기대할 수 있습니다. 특히 Windows 보조 Cortana가 이미 있고 Speech-To-Text 앱이 더 작은 버전에서 이미 사용 가능한 경우라면 더욱 그렇습니다. 규모.

그러나 현재로서는 "다른 솔루션"이 필요합니다.

"자동 음성 인식"(=Speech-To-Text) 모델을 의미하는 ASR(=STT) 모델을 검색해야 합니다.

ASR에 대한 훌륭한 이론적 개요는 다음과 같습니다.https://maelfabien.github.io/machinelearning/speech_reco/#.

이 질문은 실제적인 측면에 관한 것이므로 다음과 같습니다.

  • Speech-To-Text 프로그램을 구매해야 합니다. 저는 한 번 구매한 적이 있습니다.Dragon NaturallySpeaking와 함께 판매된 시장 선두주자 "Nuance"의필립스 VoiceTracer. 이것은 아무것도 광고하지 않습니다. 이것은 제가 처음으로 Speech-To-Text 프로그램을 얻은 방법입니다. 나는 그것을 테스트한 적이 없지만 여전히 내 목록에 있습니다 :).
  • 또는 사전 학습된 모델을 검색하거나 모델을 직접 학습해야 합니다.

그냥 말할게어떻게검색해 보니 정확한 링크는 아니고 주요 답변이네요. StackExchange는 오히려 주제에서 벗어난 것으로 간주되는 일부 제품이나 링크를 삭제하는 것이 아닙니다. 나는 아무 것도 테스트하지 않았으며 전문적인 사용자도 아닙니다.

ASR 모델을 검색하면서 겉보기에 가장 관련성 있는 모델 선택을 제공하는 AI 커뮤니티인 "Hugging Face"에서 세 가지 사전 훈련된 모델을 찾았습니다. 처음에는 몇 가지 관련 결과만 찾고 싶을 때 유용합니다.https://huggingface.co/models?pipeline_tag=automatic-speech-recognition. 그런 다음 자세히 살펴보고 GitHub에서 공개적으로 사용할 수 있는 모델에 대해 교육을 받았다는 사실을 발견했습니다.

그런 다음 모든 것이 GitHub에서 시작하고 끝나는 것을 볼 수 있습니다. 이는 놀랄 일이 아닙니다. GitHub에서 ASR, STT, 자동 음성 인식, Speech-To-Text를 검색하고 제가 했던 것처럼 "음성"만 검색하여 결과를 별표별로 정렬하면 "Mozilla DeepSpeech"가 가장 많이 검색됩니다. 유망한 프로젝트:https://github.com/mozilla/DeepSpeech#project-deepspeech.

Chrome의 경우SpeechTexter스페인어의 다양한 방언을 모두 지원합니다.

무료 버전을 사용해 보세요.Google 음성 텍스트 변환.

또한 올바른 키워드로 검색하고 언어를 추가하면 예를 들어 필요한 언어로 사전 학습된 모델을 찾을 수 있습니다.

이렇게 계속 검색하시면 더 많은 프로젝트를 찾으실 수 있습니다. 일반적으로 프로그래밍 기술이 필요하지 않으며 데모는 복사하여 붙여넣는 작업에 가깝습니다. 필요한 유일한 것은 올바른 프로그래밍 프레임워크를 준비하는 것입니다.

일부 모델이나 프로그램에는 입력으로 선택된 샘플 속도(예: 16KHz)가 필요하다는 점에 유의하세요. 오디오 파일이나 오디오 입력을 다시 포맷해야 하는 경우가 있습니다.

답변2

내가 현재 사용하고 있는 것은 다음과 같습니다.

  1. 저는 사운드 출력을 2개의 장치로 리디렉션할 수 있는 소프트웨어(제 경우에는 VOICEMEETER)를 사용했습니다. 제 경우에는 Windows Mixer가 옵션이 아니기 때문에 외부 소프트웨어를 사용합니다(Windows 믹서는 헤드셋과 "믹싱되지 않지만" 다른 출력 장치와 "믹싱"됩니다. 왜?).
  2. VOICEMEETER를 사용하면 출력 사운드를 (가상) 입력 장치로 다시 라우팅할 수 있습니다. 이제 출력 사운드를 다시 읽는 가상 입력 장치가 생겼습니다.
  3. 다음으로 Google Chrome의 마이크를 해당 가상 입력 장치로 설정합니다.크롬 마이크
  4. 따라서 Google 번역을 사용하여 성적표를 만들 수 있습니다. 이것은 어떤 소리에도 작동하므로 음악이나 비디오도 재생할 수 있습니다.성적표를 보여주는 Google 번역.

약간의 요약:

  • 내 사용 사례는 스페인어 선생님이 말하는 성적표를 보고 싶은 것입니다.
  • 이제 "Google 번역"으로 가서 MIC 버튼을 누르기만 하면 됩니다.
  • 스페인어와 영어 텍스트를 동시에 볼 수도 있습니다.
  • 선생님(Zoom 회의)의 말을 듣고 동시에 출력을 리디렉션해야 하기 때문에 VOICEMEETER가 필요합니다.
  • Windows 믹서가 작동하지 않았습니다. 링크된 게시물을 참조하세요.
  • Firefox나 Word 지시와 같은 다른 앱을 사용해 보았습니다. 여기서 문제는 MIC를 변경할 수 없으며(DEFAULT 입력 장치를 사용함) 선생님과 대화하려면 MIC 자체가 필요하다는 것입니다. 보다Word/Outlook Dictate 전용 마이크를 변경하시겠습니까(Win10)?
  • 저는 VOICEMEETER와 어떤 식으로든 관련이 없습니다. 어쨌든 그 사람들에게 찬사를 보냅니다. 멋진 UI와 도구입니다.

단점:

  • Google 번역에는 단어/기간 제한이 있습니다. 제 경우에는 관련이 없지만 다른 사용 사례에서는 중요할 수 있습니다.
  • 솔루션은 지금까지 브라우저 기반입니다.

법적 FOO:

  • 해당 국가의 법적 요구 사항을 충족하는지 확인하고 회의/음성/화상 통화 기록을 만드는 것이 합법적인지 확인하십시오.
  • 또한 Google 등의 이용 약관을 확인하여 이 접근 방식이 적용되는지 확인하세요.

관련 정보