假設我有幾個目錄,大約有 4000 個音訊文件,其中大約一半是 FLAC,另一半是 MP3。假設我想不通過標籤元數據,而僅透過音訊數據來檢測是否有任何重複或接近重複的音訊檔案。例如,假設我有同一首歌的 FLAC(無損)和 MP3(有損)版本。對檔案名稱、標籤元資料甚至取樣率不做任何假設,我想要某種方法來偵測它們是否本質上是相同的曲調。
我想到了很多事情,但它們都存在一些問題:
- 無法比較檔案雜湊或檔案大小,因為底層音訊格式或標籤可能不同
- 無法比較音訊檔案的長度,因為接近重複的音訊檔案可能不會持續完全相同的時間(它們可能彼此相差不到一秒),而且還因為可能存在其他音訊檔案相同的長度
- 無法逐一比較原始音訊資料樣本,因為這無法偵測同一曲目的有損和無損版本
我真的不知道如何做到這一點,或者是否有任何程式可以做到這一點。本質上,我正在尋找類似 AntiDupl.NET 的東西,但針對的是音訊檔案而不是影像。也許這可以在 Python 中透過某種統計分析來完成,並使用錯誤作為閾值,但我不確定如何實現。有什麼程序建議或其他想法嗎?