ffmpeg を使用してオーディオクリップのバックグラウンドノイズを減らし、音声を最適化する

Question 1

聞き取れる音声を分離したい場合は、ローパスフィルターとハイパスフィルターを組み合わせてみてください。使用可能な音声の場合、200 Hz 以下をフィルターし、次に 3000 Hz 以上をフィルターすると、使用可能な音声オーディオがかなり良好に保持されることに気付きました。

ffmpeg -i <input_file> -af "highpass=f=200, lowpass=f=3000" <output_file>

この例では、最初にハイパスフィルターを追加して低い周波数をカットし、次にローパスフィルターを使用して高い周波数をカットします。必要に応じて、ファイルをこのフィルターに複数回通して、カットされた周波数範囲内のより高い db 周波数をクリーンアップすることができます。

Answer

聞き取れる音声を分離したい場合は、ローパスフィルターとハイパスフィルターを組み合わせてみてください。使用可能な音声の場合、200 Hz 以下をフィルターし、次に 3000 Hz 以上をフィルターすると、使用可能な音声オーディオがかなり良好に保持されることに気付きました。

ffmpeg -i <input_file> -af "highpass=f=200, lowpass=f=3000" <output_file>

この例では、最初にハイパスフィルターを追加して低い周波数をカットし、次にローパスフィルターを使用して高い周波数をカットします。必要に応じて、ファイルをこのフィルターに複数回通して、カットされた周波数範囲内のより高い db 周波数をクリーンアップすることができます。

Question 2

FFmpeg には現在、ノイズの背景を処理するための 3 つのネイティブフィルターがあります。

afftdn: FFTでオーディオサンプルのノイズを除去します
anlmdn: 非局所的平均アルゴリズムを使用してオーディオサンプルの広帯域ノイズを低減します
arnndn: リカレントニューラルネットワークを使用して音声からノイズを低減します。ロードするモデルファイルの例は、ここ。

また、以前から、FFmpeg ではladspa(ノイズ抑制フィルターを探してください) および/または(音声ノイズ除去フィルターを探してください) フィルターが使用できるようになりました。lv2

Answer

FFmpeg には現在、ノイズの背景を処理するための 3 つのネイティブフィルターがあります。

afftdn: FFTでオーディオサンプルのノイズを除去します
anlmdn: 非局所的平均アルゴリズムを使用してオーディオサンプルの広帯域ノイズを低減します
arnndn: リカレントニューラルネットワークを使用して音声からノイズを低減します。ロードするモデルファイルの例は、ここ。

また、以前から、FFmpeg ではladspa(ノイズ抑制フィルターを探してください) および/または(音声ノイズ除去フィルターを探してください) フィルターが使用できるようになりました。lv2

Question 3

更新: FFmpeg は最近、afftdn以下で説明する FFT ビンごとのノイズしきい値方式を使用するようになりました。これには、適切なしきい値をオンザフライで適応/計算するためのさまざまなオプションがあります。

anlmdn(非ローカル手段) はビデオに適した手法ですが、オーディオフィルターは試していません。

どちらか一方が多くのノイズが 60Hz のハム音などだけである場合を除いて、ハイパス/ローパスよりも優れています。(人間の話し声は、かなり狭い帯域でも問題なく聞こえますが、広帯域のノイズであるバックグラウンドのヒスノイズを除去するには、もっと良い方法があります。)

ffmpeg には、ノイズ低減用の適切なオーディオフィルターが組み込まれていません。Audacity にはかなり効果的な NR フィルターがありますが、ノイズのみのサンプルと入力の 2 パス操作で使用するように設計されています。

上部のコメントhttps://github.com/audacity/audacity/blob/master/src/effects/NoiseReduction.cpp仕組みを説明します。(基本的には、しきい値以下のすべての FFT ビンを抑制します。つまり、その周波数帯域のノイズフロアよりも大きい信号のみを通過させます。問題なく驚くべき効果が得られます。信号に適応するバンドパスフィルターのようなものです。ノイズのエネルギーはスペクトル全体に広がっているため、いくつかの狭い帯域のみを通過させると、ノイズエネルギー全体が大幅に減少します。)

参照オーディオノイズ低減: Audacity は他のオプションと比べてどうですか?仕組みの詳細については、こちらをご覧ください。また、何らかの方法で FFT ビンをしきい値設定することが、一般的な商用ノイズ低減フィルターの基礎にもなっています。

そのフィルターを ffmpeg に移植するのは少し面倒です。おそらく、2 パスフィルターではなく、2 つの入力を持つフィルターとして実装するのが最適でしょう。ノイズプロファイルを取得するのに数秒しかかからないため、ファイル全体を読み取る必要はありません。また、オーディオストリーム全体をノイズサンプルとして入力しないでください。各 FFT ビンのしきい値を設定するには、ノイズだけのサンプルを確認する必要があります。

そうですね、2pass ではなく 2 番目の入力が理にかなっています。しかし、そうすると、ほとんどの ffmpeg フィルターよりも使いにくくなります。ストリーム分割や時間範囲抽出などのさまざまな工夫が必要になります。そしてもちろん、複数の入力ファイルに適した別のファイルにノイズサンプルがない限り、手動による介入が必要です。(同じマイク/セットアップからの 1 つのノイズサンプルは、そのセットアップのすべてのクリップで問題ありません。)

Answer

更新: FFmpeg は最近、afftdn以下で説明する FFT ビンごとのノイズしきい値方式を使用するようになりました。これには、適切なしきい値をオンザフライで適応/計算するためのさまざまなオプションがあります。

anlmdn(非ローカル手段) はビデオに適した手法ですが、オーディオフィルターは試していません。

どちらか一方が多くのノイズが 60Hz のハム音などだけである場合を除いて、ハイパス/ローパスよりも優れています。(人間の話し声は、かなり狭い帯域でも問題なく聞こえますが、広帯域のノイズであるバックグラウンドのヒスノイズを除去するには、もっと良い方法があります。)

ffmpeg には、ノイズ低減用の適切なオーディオフィルターが組み込まれていません。Audacity にはかなり効果的な NR フィルターがありますが、ノイズのみのサンプルと入力の 2 パス操作で使用するように設計されています。

上部のコメントhttps://github.com/audacity/audacity/blob/master/src/effects/NoiseReduction.cpp仕組みを説明します。(基本的には、しきい値以下のすべての FFT ビンを抑制します。つまり、その周波数帯域のノイズフロアよりも大きい信号のみを通過させます。問題なく驚くべき効果が得られます。信号に適応するバンドパスフィルターのようなものです。ノイズのエネルギーはスペクトル全体に広がっているため、いくつかの狭い帯域のみを通過させると、ノイズエネルギー全体が大幅に減少します。)

参照オーディオノイズ低減: Audacity は他のオプションと比べてどうですか?仕組みの詳細については、こちらをご覧ください。また、何らかの方法で FFT ビンをしきい値設定することが、一般的な商用ノイズ低減フィルターの基礎にもなっています。

そのフィルターを ffmpeg に移植するのは少し面倒です。おそらく、2 パスフィルターではなく、2 つの入力を持つフィルターとして実装するのが最適でしょう。ノイズプロファイルを取得するのに数秒しかかからないため、ファイル全体を読み取る必要はありません。また、オーディオストリーム全体をノイズサンプルとして入力しないでください。各 FFT ビンのしきい値を設定するには、ノイズだけのサンプルを確認する必要があります。

そうですね、2pass ではなく 2 番目の入力が理にかなっています。しかし、そうすると、ほとんどの ffmpeg フィルターよりも使いにくくなります。ストリーム分割や時間範囲抽出などのさまざまな工夫が必要になります。そしてもちろん、複数の入力ファイルに適した別のファイルにノイズサンプルがない限り、手動による介入が必要です。(同じマイク/セットアップからの 1 つのノイズサンプルは、そのセットアップのすべてのクリップで問題ありません。)

Question 4

_{完了するにはユーザー564335の答え:}

これ： -af arnndn=m=cb.rnnn おそらく私が使った中で最高のノイズフィルターですffmpeg（AIベース）。

このような：

ffmpeg -i <input_file> -af arnndn=m=cb.rnnn <output_file>

周波数帯域フィルタは不要です。トレーニング済みモデル（files.rnnn）こちらから入手可能(いずれかのファイルをダウンロードして使用する必要があります)。

cb（）モデルconjoined-burgersは私が見つけたものです最も印象的loudnorm多用途です。また、このフィルターは非常に効率的であることがわかりました (たとえば、フィルターよりも多くの CPU を使用するようには見えません)。

また、ffmpeg 5.0 以降では、新しいノイズフィルターが追加されました。いいえ。

よく覚えている限りでは、私はそれを試してみましたが、私の意見では、上記のトレーニング済みニューラルネットワークほど効率的ではありませんでした。

Answer