¿Cómo dividir archivos de video al detectar cambios en los parlantes? (es decir, un archivo diferente para un hablante diferente)

¿Cómo dividir archivos de video al detectar cambios en los parlantes? (es decir, un archivo diferente para un hablante diferente)

Tengo un archivo de audio que tiene 2 parlantes. El archivo de audio tiene una conversación entre ellos. Quiero dividir ese archivo en 2 partes. Una parte debe tener una conversación con la Persona A y la otra debe tener una conversación con la Persona B.

Intenté dividirlo en silencio pero no funciona. Lo intenté usando los siguientes comandos.

"ffmpeg -i input.wav -af silenciosodetect=ruido=-30dB:d=0.2 -f null - 2> vol.txt"

Pero mi archivo de audio también tiene algunas pausas aleatorias. Entonces esta solución no funciona. Necesito diferenciar entre los hablantes. ¿Alguna sugerencia para hacer esto?

información relacionada