복제본으로 스냅샷 백업 압축

복제본으로 스냅샷 백업 압축

대부분 사진의 백업 세트가 있습니다. 디렉토리는 다음과 같습니다.

backup/Day1/photos/1.jpg
               .../2.jpg
backup/Day2/photos/2.jpg
               .../3.jpg
               .../4.jpg
backup/DayN/photos/2.jpg
               .../3.jpg
               .../9.jpg

동일한 이름의 파일은 동일합니다. 중복이 많습니다. 백업 시스템의 작동 방식으로 인해 증분 백업을 직접 생성하는 것은 불가능합니다. 나는 항상 매일 전체 덤프를 얻습니다.

5~9일과 같은 날짜 범위에 대한 압축 아카이브를 생성하려면이를 수행하는 데 가장 좋은 도구/압축 알고리즘은 무엇입니까? 중복 제거를 잘 수행하는 알고리즘은 무엇입니까?(Jpeg 자체를 압축하는 것은 고려하지 않습니다)

답변1

ZPAQ중복 제거를 수행하는 잘 알려지지 않은 아카이버이며 AFAIK가 유일한 것입니다. ZPAQ은 버전 관리도 수행하므로 모든 단일 백업을 단일 아카이브에 보관하여 공간 사용량을 더욱 줄일 수 있습니다.

또는 자동으로 파일 중복 제거를 수행하는 Git과 같은 버전 제어 시스템을 사용할 수 있습니다.

또는 더 복잡한 것을 원한다면 중복 제거 기능이 내장된 파일 시스템인 Btrfs 또는 ZFS를 사용할 수 있습니다. Btrfs의 중복 제거는 ZFS만큼 좋지 않습니다.

답변2

아마도 당신이 찾고 있는 것은 WIM(Windows Imaging Format)일 것입니다. ZPAQ은 놀라운 도구에 불과하지만(제가 직접 사용함) 블록 기반 중복 제거를 수행하는 반면 WIM의 중복 제거는 파일 기반입니다(MS에서는 이를 SIS - 단일 인스턴스 저장소라고 부릅니다. 참조).MDT 및 단일 인스턴스 저장소를 사용하는 Microsoft 배포 도구 키트).

질문에서 반복되는 것은 파일 자체라고 언급하고 있으므로 파일 기반 중복 제거가 더 적합할 것이라고 주장할 수 있습니다. 특히 JPEG에 대해 이야기하고 있다는 점을 고려하면 더욱 그렇습니다.

WIM과 ZPAQ 모두:

WIM의 장점:

  • 널리 채택되고 지원됨
  • 더 빠르게
  • ZPAQ과 유사한 결과

WIM의 단점

  • 파일 수준 중복 제거(변경 사항이 작은 파일(특히 큰 경우)에는 쓸모가 없음)

ZPAQ 장점:

  • 블록 수준 중복 제거 - 예를 들어 파일 버전 간 작은 변경으로 인해 대량으로 반복되는 데이터에 적합합니다.
  • 내가 아는 한 그 기능과 방식이 독특하고 놀라운 도구입니다.

ZPAQ 단점:

  • 중복 제거가 켜져 있고 압축이 최대(5)로 설정된 경우 약간 느려집니다(상상하는 것만큼은 아님). 따라서 파일 수준 중복 제거가 충분할 경우 약간의 이점만 남습니다.
  • 널리 채택되지 않음
  • 좋은 GUI 지원 없음(복원 및 아카이브 탐색에 중요함)

관련 정보