Reduza o ruído de fundo e otimize a fala de um clipe de áudio usando ffmpeg

Question 1

Se você deseja isolar a fala audível, tente combinar um filtro passa-baixa com um filtro passa-alta. Para áudio utilizável, notei que filtrar 200 Hz e abaixo e depois filtrar 3000 Hz e acima faz um bom trabalho em manter o áudio de voz utilizável.

ffmpeg -i <input_file> -af "highpass=f=200, lowpass=f=3000" <output_file>

Neste exemplo, adicione primeiro o filtro passa-alta para cortar as frequências mais baixas e depois use o filtro passa-baixa para cortar as frequências mais altas. Se necessário, você pode executar seu arquivo mais de uma vez para limpar frequências de db mais altas dentro das faixas de frequência de corte.

Answer

Se você deseja isolar a fala audível, tente combinar um filtro passa-baixa com um filtro passa-alta. Para áudio utilizável, notei que filtrar 200 Hz e abaixo e depois filtrar 3000 Hz e acima faz um bom trabalho em manter o áudio de voz utilizável.

ffmpeg -i <input_file> -af "highpass=f=200, lowpass=f=3000" <output_file>

Neste exemplo, adicione primeiro o filtro passa-alta para cortar as frequências mais baixas e depois use o filtro passa-baixa para cortar as frequências mais altas. Se necessário, você pode executar seu arquivo mais de uma vez para limpar frequências de db mais altas dentro das faixas de frequência de corte.

Question 2

O FFmpeg agora possui 3 filtros nativos para lidar com ruído de fundo:

afftdn: Elimina o ruído de amostras de áudio com FFT
anlmdn: Reduz o ruído de banda larga em amostras de áudio usando um algoritmo de meios não locais
arnndn: reduz o ruído da fala usando redes neurais recorrentes. Exemplos de arquivos de modelo para carregar podem ser encontradosaqui.

Além disso, há algum tempo, pode-se usar filtros ladspa(procurar supressor de ruído) e/ou lv2(procurar denoiser de fala) com FFmpeg.

Answer

O FFmpeg agora possui 3 filtros nativos para lidar com ruído de fundo:

afftdn: Elimina o ruído de amostras de áudio com FFT
anlmdn: Reduz o ruído de banda larga em amostras de áudio usando um algoritmo de meios não locais
arnndn: reduz o ruído da fala usando redes neurais recorrentes. Exemplos de arquivos de modelo para carregar podem ser encontradosaqui.

Além disso, há algum tempo, pode-se usar filtros ladspa(procurar supressor de ruído) e/ou lv2(procurar denoiser de fala) com FFmpeg.

Question 3

Atualização: FFmpeg adicionado recentemente afftdnque usa o método de limite de ruído por FFT-bin descrito abaixo, com várias opções para adaptar/descobrir valores de limite apropriados em tempo real.

anlmdn(meios não locais) é uma técnica que funciona bem para vídeo; Não experimentei o filtro de áudio.

Qualquer um destes deve sermuitomelhor que passa-alta / passa-baixa, a menos que seu único ruído seja um zumbido de 60 Hz ou algo assim. (A fala humana ainda pode soar bem em uma passagem de banda bastante estreita, mas existem maneiras muito melhores de limpar um ruído de fundo de banda larga.)

O ffmpeg não possui nenhum filtro de áudio decente para redução de ruído integrado. O Audacity possui um filtro NR bastante eficaz, mas foi projetado para ser usado com operação de 2 passagens com uma amostra apenas do ruído e depois da entrada.

Os comentários no topohttps://github.com/audacity/audacity/blob/master/src/effects/NoiseReduction.cppexplique como funciona. (basicamente: suprima todos os compartimentos FFT que estão abaixo do limite. Portanto, ele só permite a passagem de sinais quando eles são mais altos do que o nível de ruído naquela banda de frequência. Ele pode fazer coisas incríveis sem causar problemas. É como um filtro passa-banda que se adapta ao sinal. Como a energia do ruído está espalhada por todo o espectro, deixar passar apenas algumas bandas estreitas reduzirá MUITO a energia total do ruído.

Veja tambémRedução de ruído de áudio: como o Audacity se compara a outras opções?para obter mais detalhes sobre como funciona, e que o limite de compartimentos FFT de uma forma ou de outra também é a base de filtros comerciais típicos de redução de ruído.

Portar esse filtro para o ffmpeg seria um pouco estranho. Talvez implementá-lo como um filtro com 2 entradas, em vez de um filtro de 2 passagens, funcionasse melhor. Como são necessários apenas alguns segundos para obter um perfil de ruído, não é necessário ler o arquivo inteiro. E você NÃO DEVE alimentar todo o fluxo de áudio como uma amostra de ruído, de qualquer maneira. Ele precisa ver uma amostra APENAS de ruído para definir limites para cada compartimento FFT.

Então, sim, uma segunda entrada, em vez de 2 passagens, faria sentido. Mas isso o torna muito menos fácil de usar do que a maioria dos filtros ffmpeg. Você precisaria de um monte de vodu com extração de divisão de fluxo/intervalo de tempo. E é claro que você precisa de intervenção manual, a menos que tenha uma amostra de ruído em um arquivo separado que seja apropriado para vários arquivos de entrada. (uma amostra de ruído do mesmo microfone/configuração deve servir para todos os clipes dessa configuração.)

Answer