LZMA/LZMA2 アルゴリズム ( xz, 7z)

Question 1

Gzip gzip は、LZ77 とハフマンコーディングを組み合わせた DEFLATE アルゴリズムに基づいています。これはロスレスデータ圧縮アルゴリズムで、オンザフライで構築された辞書を使用して入力ストリームを圧縮シンボルに変換し、重複を監視することで機能します。ただし、32K 以上離れた重複を見つけることはできません。1MB 離れた重複を見つけることを期待するのは現実的ではありません。

Answer

Gzip gzip は、LZ77 とハフマンコーディングを組み合わせた DEFLATE アルゴリズムに基づいています。これはロスレスデータ圧縮アルゴリズムで、オンザフライで構築された辞書を使用して入力ストリームを圧縮シンボルに変換し、重複を監視することで機能します。ただし、32K 以上離れた重複を見つけることはできません。1MB 離れた重複を見つけることを期待するのは現実的ではありません。

Question 2

ニコール・ハミルトンは正しく指摘しているgzip辞書のサイズが小さいため、遠く離れた重複データは見つかりません。

bzip2メモリが 900 KB に制限されているので、同様です。

代わりに、次のことを試してください。

LZMA/LZMA2 アルゴリズム ( `xz`, `7z`)

LZMA アルゴリズムは Deflate と同じファミリーですが、はるかに大きな辞書サイズを使用します (カスタマイズ可能、デフォルトは約 384 MB)。xz最新の Linux ディストリビューションのほとんどにデフォルトでインストールされているこのユーティリティは、LZMA に似ておりgzip、LZMA を使用します。

LZMA は長距離の冗長性を検出するため、ここでデータの重複を排除できます。ただし、Gzip よりも低速です。

もう 1 つのオプションは 7-zip (パッケージ7zではp7zip) です。これは、(シングルストリームコンプレッサーではなく) デフォルトで LZMA を使用するアーカイバです (LZMA の作者によって作成されました)。7-zip アーカイバは、その形式にアーカイブするときに、ファイルレベルで独自の重複排除を実行します (同じ拡張子を持つファイルを参照) 。つまり、をに.7z置き換えてもかまわない場合は、重複排除された同一のファイルが得られます。ただし、7z はナノ秒のタイムスタンプ、権限、または xattr を保持しないため、ニーズに合わない可能性があります。tar7z

`lrzip`

lrzipは、データを Gzip/Deflate、bzip2、lzop、LZMA などの従来のアルゴリズムに渡す前に、データを前処理して長距離冗長性を削除する圧縮プログラムです。ここで示すサンプルデータの場合、これは必要ありません。入力データがメモリに収まるサイズよりも大きい場合に便利です。

この種のデータ (重複した圧縮不可能なチャンク) の場合は、lzopによる圧縮 (非常に高速)を使用する必要がありますlrzip。重複が排除された後は、完全にランダムなデータを圧縮しようとしてもメリットがないためです。

バップとオブナム

質問にタグを付けたのでバックアップここでの目標がデータのバックアップである場合は、次のような重複排除バックアッププログラムの使用を検討してください。バップまたはオブナム。

Answer

ニコール・ハミルトンは正しく指摘しているgzip辞書のサイズが小さいため、遠く離れた重複データは見つかりません。

bzip2メモリが 900 KB に制限されているので、同様です。

代わりに、次のことを試してください。

LZMA/LZMA2 アルゴリズム ( `xz`, `7z`)

LZMA アルゴリズムは Deflate と同じファミリーですが、はるかに大きな辞書サイズを使用します (カスタマイズ可能、デフォルトは約 384 MB)。xz最新の Linux ディストリビューションのほとんどにデフォルトでインストールされているこのユーティリティは、LZMA に似ておりgzip、LZMA を使用します。

LZMA は長距離の冗長性を検出するため、ここでデータの重複を排除できます。ただし、Gzip よりも低速です。

もう 1 つのオプションは 7-zip (パッケージ7zではp7zip) です。これは、(シングルストリームコンプレッサーではなく) デフォルトで LZMA を使用するアーカイバです (LZMA の作者によって作成されました)。7-zip アーカイバは、その形式にアーカイブするときに、ファイルレベルで独自の重複排除を実行します (同じ拡張子を持つファイルを参照) 。つまり、をに.7z置き換えてもかまわない場合は、重複排除された同一のファイルが得られます。ただし、7z はナノ秒のタイムスタンプ、権限、または xattr を保持しないため、ニーズに合わない可能性があります。tar7z

`lrzip`

lrzipは、データを Gzip/Deflate、bzip2、lzop、LZMA などの従来のアルゴリズムに渡す前に、データを前処理して長距離冗長性を削除する圧縮プログラムです。ここで示すサンプルデータの場合、これは必要ありません。入力データがメモリに収まるサイズよりも大きい場合に便利です。

この種のデータ (重複した圧縮不可能なチャンク) の場合は、lzopによる圧縮 (非常に高速)を使用する必要がありますlrzip。重複が排除された後は、完全にランダムなデータを圧縮しようとしてもメリットがないためです。

バップとオブナム

質問にタグを付けたのでバックアップここでの目標がデータのバックアップである場合は、次のような重複排除バックアッププログラムの使用を検討してください。バップまたはオブナム。

Question 3

gzip辞書のサイズが巨大であっても、重複は見つかりませんxz。を使用すればmksquashfs、重複のスペースを節約できます。

3 つのランダムなバイナリファイル (64 MB) のうち 2 つが同じものを使用した簡単なテスト結果をxz以下に示します。mksquashfs

設定：

mkdir test
cd test
dd if=/dev/urandom of=test1.bin count=64k bs=1k
dd if=/dev/urandom of=test2.bin count=64k bs=1k
cp test{2,3}.bin
cd ..

スカッシュ：

mksquashfs test/ test.squash
> test.squash - 129M

: ...

XZ_OPT='-v --memlimit-compress=6G --memlimit-decompress=512M --lzma2=preset=9e,dict=512M --extreme -T4 ' tar -cJvf test.tar.xz test/
> test.tar.xz - 193M

Answer

gzip辞書のサイズが巨大であっても、重複は見つかりませんxz。を使用すればmksquashfs、重複のスペースを節約できます。

3 つのランダムなバイナリファイル (64 MB) のうち 2 つが同じものを使用した簡単なテスト結果をxz以下に示します。mksquashfs

設定：

mkdir test
cd test
dd if=/dev/urandom of=test1.bin count=64k bs=1k
dd if=/dev/urandom of=test2.bin count=64k bs=1k
cp test{2,3}.bin
cd ..

スカッシュ：

mksquashfs test/ test.squash
> test.squash - 129M

: ...

XZ_OPT='-v --memlimit-compress=6G --memlimit-decompress=512M --lzma2=preset=9e,dict=512M --extreme -T4 ' tar -cJvf test.tar.xz test/
> test.tar.xz - 193M

Question 4

「機械のカタツムリ」の回答への追加:

圧縮されていない単一ファイルのファイルサイズ (または、より正確には、重複間の距離) が辞書のサイズを超える場合、xz (または lzma) でも重複を見つけることはできません。xz (または lzma) は、最高設定でも、-9eこれに 64 MB しか予約しません。

幸いなことに、オプションを使用して独自の辞書サイズを指定できます--lzma2=dict=256MB （--lzma1=dict=256MBコマンドにlzmaエイリアスを使用する場合にのみ許可されます）

残念ながら、上記の例のようにカスタム圧縮チェーンで設定を上書きすると、他のすべてのパラメータのデフォルト値は -9e と同じレベルに設定されません。そのため、単一ファイルの圧縮密度はそれほど高くありません。

Answer

「機械のカタツムリ」の回答への追加:

圧縮されていない単一ファイルのファイルサイズ (または、より正確には、重複間の距離) が辞書のサイズを超える場合、xz (または lzma) でも重複を見つけることはできません。xz (または lzma) は、最高設定でも、-9eこれに 64 MB しか予約しません。

幸いなことに、オプションを使用して独自の辞書サイズを指定できます--lzma2=dict=256MB （--lzma1=dict=256MBコマンドにlzmaエイリアスを使用する場合にのみ許可されます）

残念ながら、上記の例のようにカスタム圧縮チェーンで設定を上書きすると、他のすべてのパラメータのデフォルト値は -9e と同じレベルに設定されません。そのため、単一ファイルの圧縮密度はそれほど高くありません。

LZMA/LZMA2 アルゴリズム ( xz, 7z)

答え1

答え2

LZMA/LZMA2 アルゴリズム ( `xz`, `7z`)

`lrzip`

バップとオブナム

答え3

答え4

関連情報