Оптимизация сжатых файлов для дедупликации на уровне блоков

Question 1

Вы можете использовать zcat для извлечения файлов, а затем вычислить контрольную сумму для каждого файла:

for x in *.gz
do
    zcat $x | sha256sum > $x.sum
done

затем проверьте эти файлы *.gz.sum на наличие дубликатов. Каждый раз, когда вы удаляете дубликат с именем "something.gz.sum", также удаляйте соответствующий "something.gz"

Answer

Вы можете использовать zcat для извлечения файлов, а затем вычислить контрольную сумму для каждого файла:

for x in *.gz
do
    zcat $x | sha256sum > $x.sum
done

затем проверьте эти файлы *.gz.sum на наличие дубликатов. Каждый раз, когда вы удаляете дубликат с именем "something.gz.sum", также удаляйте соответствующий "something.gz"

Question 2

Отвечая на первую половину моего вопроса относительно обрезки штампа даты/имени файла gzip. Нет, я пока не нашел готового кода, но я нашел время, чтобы установить vbindiff, визуальный инструмент для сравнения двоичных файлов, и обнаружил, что заголовок не был сжат, и, следовательно, фактический сжатый поток идентичен и gzip, gzip -nи все, что осталось, это манипулировать несколькими байтами в самом начале сжатых файлов, чтобы получить унифицированную версию. Маленькая программа на C решит мою проблему, если только кто-то не знает a sedдля двоичных файлов :-)

Что касается второй части, мне просто придется поэкспериментировать на куче данных. Если у меня будут какие-то определенные результаты, я их здесь выложу.

Answer

Отвечая на первую половину моего вопроса относительно обрезки штампа даты/имени файла gzip. Нет, я пока не нашел готового кода, но я нашел время, чтобы установить vbindiff, визуальный инструмент для сравнения двоичных файлов, и обнаружил, что заголовок не был сжат, и, следовательно, фактический сжатый поток идентичен и gzip, gzip -nи все, что осталось, это манипулировать несколькими байтами в самом начале сжатых файлов, чтобы получить унифицированную версию. Маленькая программа на C решит мою проблему, если только кто-то не знает a sedдля двоичных файлов :-)

Что касается второй части, мне просто придется поэкспериментировать на куче данных. Если у меня будут какие-то определенные результаты, я их здесь выложу.

Оптимизация сжатых файлов для дедупликации на уровне блоков

решение1

решение2

Связанный контент