중복 정보가 포함된 일련의 백업(수동으로 생성됨)이 있습니다. 디렉터리 구조를 반복하여 MD5 해시를 통해 중복 파일을 식별한 다음 파일 중 하나를 제거하는 프로그램/스크립트/명령이 있습니까?
Windows/Linux 솔루션 중 하나가 작동합니다.
답변1
개인적으로 나는 사용한다검색이를 위해. 링크된 페이지에서 언급했듯이 이를 위한 다른 도구가 많이 있으며 대부분 시도해 보았지만 rdfind는 각 파일의 처음과 마지막 몇 바이트를 먼저 스캔하고 다음과 같은 경우에만 MD5 합계를 계산하는 최적화 기능을 가지고 있습니다. 내 백업에서는 내가 시도한 다른 어떤 것보다 이 방법이 더 빠릅니다.
요청한 사용법에 대해 다음을 실행하고 싶을 것입니다.
rdfind --deleteduplicates backup_a backup_b
그러나 -makehardlinks 옵션을 사용하여 실행하는 것이 좋습니다. 이렇게 하면 중복 파일이 하드 링크로 대체되어(데이터를 정상적인 파일 시스템에 저장한다고 가정) 각 백업이 지금과 같이 보이지만 중복 데이터는 한 번만 저장됩니다.