Как разделить видеофайлы при обнаружении смены говорящих? (т. е. разные файлы для разных говорящих)

Как разделить видеофайлы при обнаружении смены говорящих? (т. е. разные файлы для разных говорящих)

У меня есть аудиофайл с двумя динамиками. В аудиофайле записан разговор между ними. Я хочу разделить этот файл на две части. В одной части должен быть разговор человека А, а в другой — разговор человека Б.

Я пробовал разделить на беззвучный режим, но это не работает. Я пробовал, используя команды ниже.

"ffmpeg -i input.wav -af silencedetect=noise=-30dB:d=0.2 -f null - 2> vol.txt"

Но в моем аудиофайле также есть некоторые случайные паузы. Так что это решение не работает. Мне нужно различать говорящих. Есть ли какие-нибудь предложения, как это сделать?

Связанный контент