Dragon과 같은 오디오 받아쓰기 소프트웨어가 화자 측에서만 작동하는 이유는 무엇입니까?

Dragon과 같은 오디오 받아쓰기 소프트웨어가 화자 측에서만 작동하는 이유는 무엇입니까?

나는 내 노트북이나 휴대폰이 내가 말하는 내용을 받아쓰거나 입력하는 대신 전화 상대방이 말하는 내용을 기록하는 것을 원하지 않습니다. Google이나 Nuance가 해당 기능을 활성화하지 않는 이유는 무엇입니까? 심지어 가능합니까? 그것이 작동하려면 무엇이 필요할까요?

답변1

말할 때 음성은 컴퓨터의 마이크와 오디오 하드웨어를 통해 녹음됩니다. 이 오디오 신호는 컴퓨터의 모든 응용 프로그램에서 사용할 수 있습니다. Skype를 통해 누군가와 대화할 때 음성 신호는 여러 패킷으로 인코딩됩니다. 음성 신호를 디코딩하려면 Skype의 프로토콜을 리버스 엔지니어링해야 합니다.

스피커폰 모드로 휴대폰으로 통화하는 경우 음성 인식 품질이 충분하지 않을 수 있습니다. 또한 음성 인식 소프트웨어는 귀하의 음성과 다른 사람의 음성 모두에 대해 훈련을 받아야 합니다.

Google이 여기서 어떤 관련성을 갖고 있는지 잘 모르겠습니다.

답변2

Dragon NaturallySpeaking(Google과 달리)은 음성을 단어로 변환하기 전에 훈련을 받아야 합니다.

Google은 누군가 Google 보이스의 자동 응답기에 메시지를 남길 때 상대방의 발신자를 위해 음성을 텍스트로 변환합니다.

통화 중에 음성 품질이 크게 변경되는 경우가 많아 음성 인식이 더욱 어려워집니다.

관련 정보