Optimieren von gzippten Dateien für die Deduplizierung auf Blockebene

Question 1

Sie können zcat zum Extrahieren der Dateien verwenden und dann für jede Datei eine Prüfsumme berechnen:

for x in *.gz
do
    zcat $x | sha256sum > $x.sum
done

dann überprüfen Sie diese *.gz.sum-Dateien auf Duplikate. Jedes Mal, wenn Sie ein Duplikat namens „something.gz.sum“ entfernen, entfernen Sie auch das entsprechende „something.gz“.

Answer

Sie können zcat zum Extrahieren der Dateien verwenden und dann für jede Datei eine Prüfsumme berechnen:

for x in *.gz
do
    zcat $x | sha256sum > $x.sum
done

dann überprüfen Sie diese *.gz.sum-Dateien auf Duplikate. Jedes Mal, wenn Sie ein Duplikat namens „something.gz.sum“ entfernen, entfernen Sie auch das entsprechende „something.gz“.

Question 2

Beantwortung der ersten Hälfte meiner Frage zum Abschneiden des Datums-/Namensstempels einer GZIP-Datei. Nein, ich habe noch keinen fertigen Code gefunden, aber ich habe mir die Zeit genommen, vbindiff zu installieren, ein visuelles Tool zum Vergleichen von Binärdateien, und habe festgestellt, dass der Header nicht komprimiert war und der tatsächlich komprimierte Datenstrom daher mit gzipund identisch ist gzip -n. Es bleibt nur noch, ein paar Bytes ganz am Anfang der komprimierten Dateien zu manipulieren, um die vereinheitlichte Version zu erhalten. Ein kleines C-Programm wird mein Problem lösen, es sei denn, jemand kennt ein Tool sedfür Binärdateien :-)

Was den zweiten Teil angeht, muss ich einfach mit einer Reihe von Daten experimentieren. Wenn ich konkrete Ergebnisse habe, werde ich sie hier veröffentlichen.

Answer

Beantwortung der ersten Hälfte meiner Frage zum Abschneiden des Datums-/Namensstempels einer GZIP-Datei. Nein, ich habe noch keinen fertigen Code gefunden, aber ich habe mir die Zeit genommen, vbindiff zu installieren, ein visuelles Tool zum Vergleichen von Binärdateien, und habe festgestellt, dass der Header nicht komprimiert war und der tatsächlich komprimierte Datenstrom daher mit gzipund identisch ist gzip -n. Es bleibt nur noch, ein paar Bytes ganz am Anfang der komprimierten Dateien zu manipulieren, um die vereinheitlichte Version zu erhalten. Ein kleines C-Programm wird mein Problem lösen, es sei denn, jemand kennt ein Tool sedfür Binärdateien :-)

Was den zweiten Teil angeht, muss ich einfach mit einer Reihe von Daten experimentieren. Wenn ich konkrete Ergebnisse habe, werde ich sie hier veröffentlichen.

Optimieren von gzippten Dateien für die Deduplizierung auf Blockebene

Antwort1

Antwort2

verwandte Informationen