約 4000 個のオーディオ ファイルが入ったディレクトリがいくつかあり、そのうち約半分が FLAC で、残り半分が MP3 だとします。タグ メタデータではなくオーディオ データのみで、重複またはほぼ重複しているオーディオ ファイルがあるかどうかを検出したいとします。たとえば、同じ曲の FLAC (ロスレス) バージョンと MP3 (ロスあり) バージョンの両方があるとします。ファイル名、タグ メタデータ、さらにはサンプル レートについて何も想定せずに、基本的に同じ曲であるかどうかを検出する方法が必要です。
いろいろ考えたのですが、どれも何らかの問題を抱えています。
- 基礎となるオーディオ形式またはタグが異なる可能性があるため、ファイルハッシュまたはファイルサイズを比較できません
- オーディオファイルの長さを比較することはできません。ほぼ重複しているファイルは、正確に同じ時間続くとは限らないためです (ほんのわずかな秒数だけずれている可能性があります)。また、同じ長さのオーディオファイルが存在する可能性もあります。
- 同じトラックのロスレス版とロスレス版を検出できないため、生のオーディオデータをサンプルごとに比較することはできません。
これをどうやって行うのか、またはこれを実行できるプログラムがあるのかどうか、本当によくわかりません。基本的に、画像ではなくオーディオ ファイル用の AntiDupl.NET のようなものを探しています。おそらく、エラーをしきい値として使用して、何らかの統計分析を使用して Python でこれを行うことができますが、それをどのように実装できるかわかりません。プログラムの提案やその他のアイデアはありますか?