약 4000개의 오디오 파일이 포함된 몇 개의 디렉토리가 있다고 가정해 보겠습니다. 그 중 절반은 FLAC이고 나머지 절반은 MP3입니다. 중복되거나 거의 중복된 오디오 파일이 있는지 태그 메타데이터가 아닌 오디오 데이터로만 감지하고 싶다고 가정해 보겠습니다. 예를 들어, 동일한 노래의 FLAC(무손실) 버전과 MP3(손실) 버전이 모두 있다고 가정해 보겠습니다. 파일 이름, 태그 메타데이터 또는 샘플 속도에 대해 가정하지 않고 본질적으로 동일한 곡인지 감지할 수 있는 방법이 필요합니다.
제가 생각한 것들이 많이 있지만 모두 몇 가지 문제가 있습니다.
- 기본 오디오 형식이나 태그가 다를 수 있으므로 파일 해시나 파일 크기를 비교할 수 없습니다.
- 거의 중복된 파일은 정확히 같은 시간 동안 지속되지 않을 수 있고(매우 작은 부분의 차이로 서로 다를 수 있음) 오디오 파일의 길이를 비교할 수 없으며 다음과 같은 다른 오디오 파일이 있을 수도 있습니다. 같은 길이
- 동일한 트랙의 손실 버전과 무손실 버전을 감지할 수 없기 때문에 원시 오디오 데이터 샘플을 샘플별로 비교할 수 없습니다.
이 작업을 수행하는 방법이나 이를 수행할 수 있는 프로그램이 있는지 잘 모르겠습니다. 본질적으로 저는 AntiDupl.NET과 같은 것을 찾고 있지만 이미지 대신 오디오 파일을 찾고 있습니다. 아마도 이것은 오류를 임계값으로 사용하여 일종의 통계 분석을 통해 Python에서 수행할 수 있지만 어떻게 구현될 수 있는지 잘 모르겠습니다. 프로그램 제안이나 다른 아이디어가 있나요?