Windows 10 스피커 사운드(음성)를 텍스트로?

Question 1

현재로서는 이를 수행할 수 있는 Windows 내장 프로그램이 없는 것처럼 보입니다. 하지만 미래에는 이를 기대할 수 있습니다. 특히 Windows 보조 Cortana가 이미 있고 Speech-To-Text 앱이 더 작은 버전에서 이미 사용 가능한 경우라면 더욱 그렇습니다. 규모.

그러나 현재로서는 "다른 솔루션"이 필요합니다.

"자동 음성 인식"(=Speech-To-Text) 모델을 의미하는 ASR(=STT) 모델을 검색해야 합니다.

ASR에 대한 훌륭한 이론적 개요는 다음과 같습니다.https://maelfabien.github.io/machinelearning/speech_reco/#.

이 질문은 실제적인 측면에 관한 것이므로 다음과 같습니다.

Speech-To-Text 프로그램을 구매해야 합니다. 저는 한 번 구매한 적이 있습니다.Dragon NaturallySpeaking와 함께 판매된 시장 선두주자 "Nuance"의필립스 VoiceTracer. 이것은 아무것도 광고하지 않습니다. 이것은 제가 처음으로 Speech-To-Text 프로그램을 얻은 방법입니다. 나는 그것을 테스트한 적이 없지만 여전히 내 목록에 있습니다 :).
또는 사전 학습된 모델을 검색하거나 모델을 직접 학습해야 합니다.

그냥 말할게어떻게검색해 보니 정확한 링크는 아니고 주요 답변이네요. StackExchange는 오히려 주제에서 벗어난 것으로 간주되는 일부 제품이나 링크를 삭제하는 것이 아닙니다. 나는 아무 것도 테스트하지 않았으며 전문적인 사용자도 아닙니다.

ASR 모델을 검색하면서 겉보기에 가장 관련성 있는 모델 선택을 제공하는 AI 커뮤니티인 "Hugging Face"에서 세 가지 사전 훈련된 모델을 찾았습니다. 처음에는 몇 가지 관련 결과만 찾고 싶을 때 유용합니다.https://huggingface.co/models?pipeline_tag=automatic-speech-recognition. 그런 다음 자세히 살펴보고 GitHub에서 공개적으로 사용할 수 있는 모델에 대해 교육을 받았다는 사실을 발견했습니다.

두 개는 ESPnet을 기반으로 합니다. ESPnet2가 곧 출시될 예정입니다. 데모는 다음에서 제공됩니다.https://github.com/espnet/espnet#asr-demo.
Facebook 모델은 wav2vec 모델을 기반으로 합니다.https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20.

그런 다음 모든 것이 GitHub에서 시작하고 끝나는 것을 볼 수 있습니다. 이는 놀랄 일이 아닙니다. GitHub에서 ASR, STT, 자동 음성 인식, Speech-To-Text를 검색하고 제가 했던 것처럼 "음성"만 검색하여 결과를 별표별로 정렬하면 "Mozilla DeepSpeech"가 가장 많이 검색됩니다. 유망한 프로젝트:https://github.com/mozilla/DeepSpeech#project-deepspeech.

Chrome의 경우SpeechTexter스페인어의 다양한 방언을 모두 지원합니다.

무료 버전을 사용해 보세요.Google 음성 텍스트 변환.

또한 올바른 키워드로 검색하고 언어를 추가하면 예를 들어 필요한 언어로 사전 학습된 모델을 찾을 수 있습니다.

"스페인어 말하기"는 다음으로 이어집니다.https://github.com/luchovelez/SpeechRecognition
"deepspeech Spanish"는 별표가 거의 또는 전혀 없는 6개의 결과를 표시합니다(작동하지 않는다고 말할 수는 없음).https://github.com/search?q=deepspeech+spanish&type=저장소

이렇게 계속 검색하시면 더 많은 프로젝트를 찾으실 수 있습니다. 일반적으로 프로그래밍 기술이 필요하지 않으며 데모는 복사하여 붙여넣는 작업에 가깝습니다. 필요한 유일한 것은 올바른 프로그래밍 프레임워크를 준비하는 것입니다.

일부 모델이나 프로그램에는 입력으로 선택된 샘플 속도(예: 16KHz)가 필요하다는 점에 유의하세요. 오디오 파일이나 오디오 입력을 다시 포맷해야 하는 경우가 있습니다.

Answer