重複したスナップショットバックアップを圧縮する

重複したスナップショットバックアップを圧縮する

私は主に写真のバックアップセットを持っています。ディレクトリは次のようになります。

backup/Day1/photos/1.jpg
               .../2.jpg
backup/Day2/photos/2.jpg
               .../3.jpg
               .../4.jpg
backup/DayN/photos/2.jpg
               .../3.jpg
               .../9.jpg

同じ名前のファイルは同一です。重複が多数あります。バックアップ システムの仕組み上、増分バックアップを直接作成することはできません。私は毎日必ず全体のダンプを取得します。

5日目~9日目といった日付範囲の圧縮アーカイブを作成したい場合、重複排除をうまく行うための最適なツール/圧縮アルゴリズムは何ですか?(jpeg自体を圧縮するつもりはありません)

答え1

ジパック重複排除を行うあまり知られていないアーカイバですが、私の知る限りでは唯一のものです。ZPAQ はバージョン管理も行うため、すべてのバックアップを 1 つのアーカイブに保存でき、スペースの使用をさらに削減できます。

または、ファイルの重複を自動的に排除する Git などのバージョン管理システムを使用することもできます。

あるいは、もっと複雑なことをしたい場合は、重複排除機能が組み込まれたファイルシステムである Btrfs または ZFS をいじることもできます。ただし、Btrfs の重複排除機能は ZFS ほど優れていません。

答え2

WIM (Windows Imaging Format) はおそらくあなたが探しているものです。ZPAQ は素晴らしいツールに他なりません (私自身も使用しています)。ZPAQ はブロック ベースの重複排除を行いますが、WIM の重複排除はファイル ベースです (MS はこれを SIS (Single Instance Storage) と呼んでいます。MDT とシングルインスタンス ストレージを使用した Microsoft Deployment Toolkit)。

質問では、繰り返されるのはファイル自体であると述べられているため、特に JPEG について話していることを考慮すると、ファイルベースの重複排除の方が適していると言えます。

WIM と ZPAQ の両方:

WIM の利点:

  • 広く採用され、支持されている
  • もっと早く
  • ZPAQと同様の結果

WIMの欠点

  • ファイル レベルの重複排除 (変更が小さいファイル (特に大きいファイル) には役に立ちません)。

ZPAQの利点:

  • ブロックレベルの重複排除 - 例えば、ファイルバージョン間の小さな変更を伴う大量の繰り返しデータに最適ですが、
  • 素晴らしいツールです。私が知る限り、その機能と方法はユニークです。

ZPAQ の欠点:

  • 重複排除がオンで圧縮が最大(5)に設定されている場合は、少し遅くなります(想像するほどではありません)。そのため、ファイルレベルの重複排除で十分な場合は、わずかな利点しかありません。
  • 広く採用されていない
  • 適切な GUI サポートがない (復元とアーカイブ ナビゲーションに重要)

関連情報