Лучшее сжатие похожих файлов?

Лучшее сжатие похожих файлов?

У меня есть несколько полных старых резервных копий, например, бинарных дампов баз данных. Очевидно, что они не сильно отличаются, поэтому делать полные резервные копии здесь не самая умная идея. Сейчас я ищу программу сжатия, способную извлечь выгоду из того факта, что большинство файлов имеют схожее содержимое.

решение1

Если вы сначала заархивируете файлы (используя tar tar cvf my_backup.tar <file list...>), то любой инструмент сжатия справится с этой задачей хорошо, поскольку он будет видеть данные как один большой файл.

Поэтому просто заархивируйте файлы tar, а затем поместите их в архив zip, 7-zip, bzip2 и т. д. Из файла tar вы можете попробовать разные алгоритмы сжатия и посмотреть, какой из них работает лучше всего.

решение2

Мне очень повезло с 7-Zip. Если у вас есть лошадиные силы, он способен работать с очень большим окном. Убедитесь, что ваши исходные файлы максимально распакованы, чтобы он мог найти сходства. (Для файлов Excel в гетерогенной среде, например, это означает, что сначала нужно распаковать их содержимое, поскольку файлы xlsx слегка сжимаются при сохранении. Однажды мне удалось сжать 600 МБ+ почти избыточных файлов Excel-версии до нескольких сотен Кб.)

Связанный контент