Komprimieren Sie Snapshot-Backups mit Duplikaten

Komprimieren Sie Snapshot-Backups mit Duplikaten

Ich habe eine Reihe von Backups, die hauptsächlich aus Fotos bestehen. Das Verzeichnis sieht ungefähr so ​​aus:

backup/Day1/photos/1.jpg
               .../2.jpg
backup/Day2/photos/2.jpg
               .../3.jpg
               .../4.jpg
backup/DayN/photos/2.jpg
               .../3.jpg
               .../9.jpg

Dateien mit gleichem Namen sind identisch. Es gibt viele Duplikate. Aufgrund der Funktionsweise des Backup-Systems ist es nicht möglich, direkt inkrementelle Backups zu erstellen. Ich erhalte jeden Tag den gesamten Dump.

Wenn ich ein komprimiertes Archiv für einen Datumsbereich erstellen möchte, beispielsweise Tag 5 bis 9,Welches ist das beste Tool/der beste Komprimierungsalgorithmus hierfür, mit dem sich Duplikate gut deduplizieren lassen?(Ich rechne nicht damit, das JPEG selbst zu komprimieren)

Antwort1

ZPAQist ein wenig bekannter Archiver, der Deduplizierung durchführt, und meines Wissens nach der einzige. Da ZPAQ auch Versionierung durchführt, können Sie jedes einzelne Backup in einem einzigen Archiv aufbewahren, was den Speicherplatzbedarf noch weiter reduziert.

Oder Sie verwenden ein Versionskontrollsystem wie Git, das die Dateideduplizierung automatisch durchführt.

Wenn Sie es etwas komplizierter haben möchten, können Sie auch Btrfs oder ZFS ausprobieren. Dabei handelt es sich um Dateisysteme mit integrierter Deduplizierung. Die Deduplizierung von Btrfs ist allerdings nicht so gut wie die von ZFS.

Antwort2

WIM (Windows Imaging Format) ist wahrscheinlich das, wonach Sie suchen. Während ZPAQ nichts weniger als ein erstaunliches Tool ist (ich benutze es selbst), führt es blockbasierte Deduplizierung durch, während die Deduplizierung von WIM dateibasiert ist (MS nennt es SIS - Single Instance Storage, sieheMicrosoft Deployment Toolkit mit MDT und Single-Instance-Speicher).

Da in der Frage erwähnt wird, dass die Dateien selbst wiederholt werden, kann argumentiert werden, dass eine dateibasierte Deduplizierung besser geeignet wäre – insbesondere wenn man berücksichtigt, dass es sich um JPEGS handelt.

Sowohl WIM als auch ZPAQ:

  • Inkrementelle Updates durchführen
  • Unterstützung bei der Fehlererkennung bieten
  • Unterstützt starke Verschlüsselung
  • Werden zumindest unter Windows und Linux unterstützt (siehewimlib – die Open-Source-Bibliothek für Windows Imaging (WIM)- für WIM)
  • Verfügt über eine starke Kompressionsunterstützung
  • Sind stabil

WIM-Vorteile:

  • Weit verbreitet und unterstützt
  • Schneller
  • Ähnliche Ergebnisse wie ZPAQ

WIM-Nachteile

  • Deduplizierung auf Dateiebene (nutzlos für Dateien (insbesondere wenn sie groß sind) mit kleinen Änderungen).

ZPAQ-Vorteile:

  • Deduplizierung auf Blockebene - ideal zum Beispiel für massenhaft wiederholte Daten mit kleinen Änderungen zwischen Dateiversionen, aber nicht nur
  • Erstaunliches Werkzeug, einzigartig in dem, was es tut und wie es es tut, soweit ich weiß

Nachteile von ZPAQ:

  • etwas langsamer (nicht so viel wie ich mir vorstelle), wenn die Deduplizierung eingeschaltet und die Komprimierung auf Maximum (5) eingestellt ist, also nur marginaler Vorteil, wenn die Deduplizierung auf Dateiebene ausreicht
  • Keine breite Akzeptanz
  • Keine gute GUI-Unterstützung (wichtig für Wiederherstellungen und Archivnavigation)

verwandte Informationen