ほぼ重複したオーディオファイルを検出する

ほぼ重複したオーディオファイルを検出する

約 4000 個のオーディオ ファイルが入ったディレクトリがいくつかあり、そのうち約半分が FLAC で、残り半分が MP3 だとします。タグ メタデータではなくオーディオ データのみで、重複またはほぼ重複しているオーディオ ファイルがあるかどうかを検出したいとします。たとえば、同じ曲の FLAC (ロスレス) バージョンと MP3 (ロスあり) バージョンの両方があるとします。ファイル名、タグ メタデータ、さらにはサンプル レートについて何も想定せずに、基本的に同じ曲であるかどうかを検出する方法が必要です。

いろいろ考えたのですが、どれも何らかの問題を抱えています。

  • 基礎となるオーディオ形式またはタグが異なる可能性があるため、ファイルハッシュまたはファイルサイズを比較できません
  • オーディオファイルの長さを比較することはできません。ほぼ重複しているファイルは、正確に同じ時間続くとは限らないためです (ほんのわずかな秒数だけずれている可能性があります)。また、同じ長さのオーディオファイルが存在する可能性もあります。
  • 同じトラックのロスレス版とロスレス版を検出できないため、生のオーディオデータをサンプルごとに比較することはできません。

これをどうやって行うのか、またはこれを実行できるプログラムがあるのか​​どうか、本当によくわかりません。基本的に、画像ではなくオーディオ ファイル用の AntiDupl.NET のようなものを探しています。おそらく、エラーをしきい値として使用して、何らかの統計分析を使用して Python でこれを行うことができますが、それをどのように実装できるかわかりません。プログラムの提案やその他のアイデアはありますか?

関連情報