Beste Komprimierung ähnlicher Dateien?

Beste Komprimierung ähnlicher Dateien?

Ich habe ein paar vollständige alte Backups von Dingen wie binären Datenbank-Dumps. Offensichtlich unterscheiden sie sich nicht sehr, daher ist es nicht die beste Idee, vollständige Backups zu erstellen. Im Moment suche ich nach einem Komprimierungsprogramm, das die Tatsache ausnutzen kann, dass die meisten Dateien einen ähnlichen Inhalt haben.

Antwort1

Wenn Sie die Dateien zunächst tarnen (mit tar cvf my_backup.tar <file list...>), ist jedes Komprimierungstool gut geeignet, da es die Daten als eine große Datei erkennt.

Tarieren Sie die Dateien also einfach und packen Sie sie dann in ein ZIP-, 7-Zip-, Bzip2- usw.-Format. In der Tar-Datei können Sie die verschiedenen Komprimierungsalgorithmen ausprobieren und sehen, welcher die beste Leistung bringt.

Antwort2

Ich hatte sehr viel Glück mit 7-Zip. Wenn Sie die nötige Leistung haben, kann es mit einem sehr großen Fenster arbeiten. Stellen Sie sicher, dass Ihre Originaldateien so unkomprimiert wie möglich sind, damit es Ähnlichkeiten finden kann. (Bei Excel-Dateien in einer heterogenen Umgebung bedeutet dies beispielsweise, dass Sie zuerst deren Inhalt entpacken müssen, da xlsx-Dateien beim Speichern leicht komprimiert werden. Ich konnte einmal über 600 MiB fast redundanter Excel-Versionsdateien auf einige hundert KiB komprimieren.)

verwandte Informationen