Fusiona muchos archivos de audio con posiciones específicas

Question

Asignemos el tiempo relativo del inicio del primer audio como t=0. Entonces, si la primera grabación de audio comenzó a las 16:59:23y la tercera grabación comenzó a las 17:14:13, entonces la hora de inicio relativa de la tercera es 14:50.

Teniendo esto en cuenta, la estructura de mando básica es

ffmpeg -i first.mka -i second.mka -i third.mka -i fourth.mka
       -filter_complex
         "[1]adelay=184000|184000[b];
          [2]adelay=360000|360000[c];
          [3]adelay=962000|962000[d];
          [0][b][c][d]amix=4"
merged.mka

Lo que hace el comando es retrasar el inicio relativo de cada archivo de audio, excepto el primero, para que coincida con sus tiempos de inicio relativos de la vida real. Luego, todas las transmisiones de audio retrasadas se mezclan. El amixfiltro inserta silencio donde sea necesario.

adelayrequiere valor en milisegundos, por lo que 3 minutos, 4 segundos son 184 segundos son 184000ms. Se debe proporcionar un valor para cada canal de una transmisión de audio, por lo que si se trata de transmisiones mono, esa [1]adelay=184000[b]es la sintaxis.

Answer 1

Asignemos el tiempo relativo del inicio del primer audio como t=0. Entonces, si la primera grabación de audio comenzó a las 16:59:23y la tercera grabación comenzó a las 17:14:13, entonces la hora de inicio relativa de la tercera es 14:50.

Teniendo esto en cuenta, la estructura de mando básica es

ffmpeg -i first.mka -i second.mka -i third.mka -i fourth.mka
       -filter_complex
         "[1]adelay=184000|184000[b];
          [2]adelay=360000|360000[c];
          [3]adelay=962000|962000[d];
          [0][b][c][d]amix=4"
merged.mka

Lo que hace el comando es retrasar el inicio relativo de cada archivo de audio, excepto el primero, para que coincida con sus tiempos de inicio relativos de la vida real. Luego, todas las transmisiones de audio retrasadas se mezclan. El amixfiltro inserta silencio donde sea necesario.

adelayrequiere valor en milisegundos, por lo que 3 minutos, 4 segundos son 184 segundos son 184000ms. Se debe proporcionar un valor para cada canal de una transmisión de audio, por lo que si se trata de transmisiones mono, esa [1]adelay=184000[b]es la sintaxis.

Fusiona muchos archivos de audio con posiciones específicas

Respuesta1

información relacionada