Suponha que eu tenha alguns diretórios com cerca de 4.000 arquivos de áudio, cerca de metade dos quais são FLAC e a outra metade são MP3. Suponha que eu queira detectar, não por metadados de tags, mas apenas por dados de áudio, se tenho algum arquivo de áudio duplicado ou quase duplicado. Por exemplo, suponha que eu tenha uma versão FLAC (sem perdas) e uma versão MP3 (com perdas) da mesma música. Sem fazer suposições sobre o nome do arquivo, os metadados da tag ou mesmo a taxa de amostragem, gostaria de detectar se eles são essencialmente a mesma música.
Pensei em muitas coisas, mas todas têm alguns tipos de problemas:
- Não é possível comparar hashes ou tamanhos de arquivos porque o formato ou as tags de áudio subjacentes podem ser diferentes
- Não é possível comparar a duração dos arquivos de áudio, pois os quase duplicados podem não durar exatamente o mesmo tempo (eles podem estar separados um do outro por pequenas frações de segundo) e também porque pode haver outros arquivos de áudio de o mesmo comprimento
- Não é possível comparar os dados de áudio brutos, amostra por amostra, pois isso não seria capaz de detectar uma versão com e sem perdas da mesma faixa
Eu realmente não tenho certeza de como fazer isso ou se existe algum programa que possa fazer isso. Essencialmente, estou procurando algo como o AntiDupl.NET, mas para arquivos de áudio em vez de imagens. Talvez isso possa ser feito em Python com algum tipo de análise estatística, usando o erro como limite, mas não tenho certeza de como isso poderia ser implementado. Alguma sugestão de programa ou outras ideias?