ブロックレベルの重複排除のために gzip 圧縮ファイルを最適化する

Question 1

zcat を使用してファイルを抽出し、各ファイルのチェックサムを計算できます。

for x in *.gz
do
    zcat $x | sha256sum > $x.sum
done

次に、*.gz.sum ファイルに重複がないか確認します。「something.gz.sum」という重複を削除するたびに、対応する「something.gz」も削除します。

Answer

zcat を使用してファイルを抽出し、各ファイルのチェックサムを計算できます。

for x in *.gz
do
    zcat $x | sha256sum > $x.sum
done

次に、*.gz.sum ファイルに重複がないか確認します。「something.gz.sum」という重複を削除するたびに、対応する「something.gz」も削除します。

Question 2

gzip ファイルの日付/名前スタンプの切り取りに関する質問の前半に回答します。いいえ、まだ既製のコードを見つけていませんが、ビジュアルバイナリ diff ツールである vbindiff をインストールする時間は見つけました。ヘッダーが圧縮されていないため、実際の圧縮ストリームはおよびと同一でありgzip、残っているのは、圧縮ファイルの先頭の数バイトを操作して統合バージョンを取得することだけです。バイナリ用のをgzip -n知っている人がいなければ、小さな C プログラムで問題は解決します :-)sed

2 番目の部分については、大量のデータで実験する必要があります。明確な結果が出たら、ここに投稿します。

Answer

gzip ファイルの日付/名前スタンプの切り取りに関する質問の前半に回答します。いいえ、まだ既製のコードを見つけていませんが、ビジュアルバイナリ diff ツールである vbindiff をインストールする時間は見つけました。ヘッダーが圧縮されていないため、実際の圧縮ストリームはおよびと同一でありgzip、残っているのは、圧縮ファイルの先頭の数バイトを操作して統合バージョンを取得することだけです。バイナリ用のをgzip -n知っている人がいなければ、小さな C プログラムで問題は解決します :-)sed

2 番目の部分については、大量のデータで実験する必要があります。明確な結果が出たら、ここに投稿します。

ブロックレベルの重複排除のために gzip 圧縮ファイルを最適化する

答え1

答え2

関連情報