LZMA/LZMA2-Algorithmus ( xz, 7z)

Question 1

Gzip gzip basiert auf dem DEFLATE-Algorithmus, einer Kombination aus LZ77- und Huffman-Kodierung. Es handelt sich um einen verlustfreien Datenkomprimierungsalgorithmus, der den Eingabestrom mithilfe eines im laufenden Betrieb erstellten Wörterbuchs in komprimierte Symbole umwandelt und nach Duplikaten sucht. Er kann jedoch keine Duplikate finden, die mehr als 32 KB voneinander entfernt sind. Es ist nicht realistisch zu erwarten, dass er Duplikate erkennt, die 1 MB voneinander entfernt sind.

Answer

Gzip gzip basiert auf dem DEFLATE-Algorithmus, einer Kombination aus LZ77- und Huffman-Kodierung. Es handelt sich um einen verlustfreien Datenkomprimierungsalgorithmus, der den Eingabestrom mithilfe eines im laufenden Betrieb erstellten Wörterbuchs in komprimierte Symbole umwandelt und nach Duplikaten sucht. Er kann jedoch keine Duplikate finden, die mehr als 32 KB voneinander entfernt sind. Es ist nicht realistisch zu erwarten, dass er Duplikate erkennt, die 1 MB voneinander entfernt sind.

Question 2

Nicole Hamilton bemerkt richtigdas gzipaufgrund seiner geringen Wörterbuchgröße keine entfernten doppelten Daten findet.

bzip2ist ähnlich, da es auf 900 KB Speicher begrenzt ist.

Versuchen Sie stattdessen:

LZMA/LZMA2-Algorithmus ( `xz`, `7z`)

Der LZMA-Algorithmus gehört zur selben Familie wie Deflate, verwendet aber eine viel größere Wörterbuchgröße (anpassbar; Standard ist etwa 384 MB). Das xzDienstprogramm, das auf den meisten aktuellen Linux-Distributionen standardmäßig installiert sein sollte, ist ähnlich wie gzipLZMA und verwendet es auch.

Da LZMA Redundanz über größere Entfernungen erkennt, kann es Ihre Daten hier deduplizieren. Es ist jedoch langsamer als Gzip.

Eine weitere Option ist 7-zip ( 7zim p7zipPaket ), ein Archivierungsprogramm (anstelle eines Single-Stream-Kompressors), das standardmäßig LZMA verwendet (geschrieben vom Autor von LZMA). Das 7-Zip-Archivierungsprogramm führt seine eigene Deduplizierung auf Dateiebene aus (unter Berücksichtigung von Dateien mit derselben Erweiterung), wenn es in sein .7zFormat archiviert. Das bedeutet, dass Sie identische Dateien dedupliziert bekommen, wenn Sie bereit sind, tardurch zu ersetzen 7z. 7z bewahrt jedoch keine Nanosekunden-Zeitstempel, Berechtigungen oder xattrs auf, sodass es Ihren Anforderungen möglicherweise nicht entspricht.

`lrzip`

lrzipist ein Kompressor, der die Daten vorverarbeitet, um Redundanzen über große Entfernungen zu entfernen, bevor sie einem herkömmlichen Algorithmus wie Gzip/Deflate, bzip2, lzop oder LZMA zugeführt werden. Für die Beispieldaten, die Sie hier angeben, ist dies nicht erforderlich. Es ist nützlich, wenn die Eingabedaten größer sind als das, was in den Speicher passt.

Für diese Art von Daten (duplizierte, nicht komprimierbare Blöcke) sollten Sie lzopdie Komprimierung (sehr schnell) mit verwenden lrzip, da es keinen Vorteil bringt, nach der Deduplizierung stärker zu versuchen, völlig zufällige Daten zu komprimieren.

Bup und Obnam

Da Sie die Frage markiert habenSicherungWenn Ihr Ziel hier die Datensicherung ist, sollten Sie ein deduplizierendes Backup-Programm verwenden wieBupoderObnam.

Answer

Nicole Hamilton bemerkt richtigdas gzipaufgrund seiner geringen Wörterbuchgröße keine entfernten doppelten Daten findet.

bzip2ist ähnlich, da es auf 900 KB Speicher begrenzt ist.

Versuchen Sie stattdessen:

LZMA/LZMA2-Algorithmus ( `xz`, `7z`)

Der LZMA-Algorithmus gehört zur selben Familie wie Deflate, verwendet aber eine viel größere Wörterbuchgröße (anpassbar; Standard ist etwa 384 MB). Das xzDienstprogramm, das auf den meisten aktuellen Linux-Distributionen standardmäßig installiert sein sollte, ist ähnlich wie gzipLZMA und verwendet es auch.

Da LZMA Redundanz über größere Entfernungen erkennt, kann es Ihre Daten hier deduplizieren. Es ist jedoch langsamer als Gzip.

Eine weitere Option ist 7-zip ( 7zim p7zipPaket ), ein Archivierungsprogramm (anstelle eines Single-Stream-Kompressors), das standardmäßig LZMA verwendet (geschrieben vom Autor von LZMA). Das 7-Zip-Archivierungsprogramm führt seine eigene Deduplizierung auf Dateiebene aus (unter Berücksichtigung von Dateien mit derselben Erweiterung), wenn es in sein .7zFormat archiviert. Das bedeutet, dass Sie identische Dateien dedupliziert bekommen, wenn Sie bereit sind, tardurch zu ersetzen 7z. 7z bewahrt jedoch keine Nanosekunden-Zeitstempel, Berechtigungen oder xattrs auf, sodass es Ihren Anforderungen möglicherweise nicht entspricht.

`lrzip`

lrzipist ein Kompressor, der die Daten vorverarbeitet, um Redundanzen über große Entfernungen zu entfernen, bevor sie einem herkömmlichen Algorithmus wie Gzip/Deflate, bzip2, lzop oder LZMA zugeführt werden. Für die Beispieldaten, die Sie hier angeben, ist dies nicht erforderlich. Es ist nützlich, wenn die Eingabedaten größer sind als das, was in den Speicher passt.

Für diese Art von Daten (duplizierte, nicht komprimierbare Blöcke) sollten Sie lzopdie Komprimierung (sehr schnell) mit verwenden lrzip, da es keinen Vorteil bringt, nach der Deduplizierung stärker zu versuchen, völlig zufällige Daten zu komprimieren.

Bup und Obnam

Da Sie die Frage markiert habenSicherungWenn Ihr Ziel hier die Datensicherung ist, sollten Sie ein deduplizierendes Backup-Programm verwenden wieBupoderObnam.

Question 3

gzipfindet keine Duplikate, selbst xzbei einem riesigen Wörterbuch nicht. Was Sie tun können, ist zu verwenden mksquashfs– dadurch wird tatsächlich Platz für Duplikate gespart.

Einige schnelle Testergebnisse mit xzund mksquashfsmit drei zufälligen Binärdateien (64 MB), von denen zwei gleich sind:

Aufstellen:

mkdir test
cd test
dd if=/dev/urandom of=test1.bin count=64k bs=1k
dd if=/dev/urandom of=test2.bin count=64k bs=1k
cp test{2,3}.bin
cd ..

Squashfs:

mksquashfs test/ test.squash
> test.squash - 129M

xz:

XZ_OPT='-v --memlimit-compress=6G --memlimit-decompress=512M --lzma2=preset=9e,dict=512M --extreme -T4 ' tar -cJvf test.tar.xz test/
> test.tar.xz - 193M

Answer

gzipfindet keine Duplikate, selbst xzbei einem riesigen Wörterbuch nicht. Was Sie tun können, ist zu verwenden mksquashfs– dadurch wird tatsächlich Platz für Duplikate gespart.

Einige schnelle Testergebnisse mit xzund mksquashfsmit drei zufälligen Binärdateien (64 MB), von denen zwei gleich sind:

Aufstellen:

mkdir test
cd test
dd if=/dev/urandom of=test1.bin count=64k bs=1k
dd if=/dev/urandom of=test2.bin count=64k bs=1k
cp test{2,3}.bin
cd ..

Squashfs:

mksquashfs test/ test.squash
> test.squash - 129M

xz:

XZ_OPT='-v --memlimit-compress=6G --memlimit-decompress=512M --lzma2=preset=9e,dict=512M --extreme -T4 ' tar -cJvf test.tar.xz test/
> test.tar.xz - 193M

Question 4

Als Ergänzung zur Antwort der „mechanischen Schnecke“:

Sogar xz (oder lzma) findet keine Duplikate, wenn die Dateigröße der unkomprimierten Einzeldatei (oder genauer gesagt der Abstand zwischen den Duplikaten) die Wörterbuchgröße überschreitet. xz (oder lzma) -9ereserviert selbst bei der höchsten Einstellung nur 64 MB hierfür.

Glücklicherweise können Sie mit der Option Ihre eigene Wörterbuchgröße angeben --lzma2=dict=256MB ( --lzma1=dict=256MBist nur zulässig, wenn Sie den lzma-Alias für den Befehl verwenden).

Wenn die Einstellungen mit benutzerdefinierten Komprimierungsketten wie im obigen Beispiel überschrieben werden, werden die Standardwerte für alle anderen Parameter leider nicht auf das gleiche Niveau gesetzt wie bei -9e. Daher ist die Komprimierungsdichte für einzelne Dateien nicht so hoch.

Answer

Als Ergänzung zur Antwort der „mechanischen Schnecke“:

Sogar xz (oder lzma) findet keine Duplikate, wenn die Dateigröße der unkomprimierten Einzeldatei (oder genauer gesagt der Abstand zwischen den Duplikaten) die Wörterbuchgröße überschreitet. xz (oder lzma) -9ereserviert selbst bei der höchsten Einstellung nur 64 MB hierfür.

Glücklicherweise können Sie mit der Option Ihre eigene Wörterbuchgröße angeben --lzma2=dict=256MB ( --lzma1=dict=256MBist nur zulässig, wenn Sie den lzma-Alias für den Befehl verwenden).

Wenn die Einstellungen mit benutzerdefinierten Komprimierungsketten wie im obigen Beispiel überschrieben werden, werden die Standardwerte für alle anderen Parameter leider nicht auf das gleiche Niveau gesetzt wie bei -9e. Daher ist die Komprimierungsdichte für einzelne Dateien nicht so hoch.

LZMA/LZMA2-Algorithmus ( xz, 7z)

Antwort1

Antwort2

LZMA/LZMA2-Algorithmus ( `xz`, `7z`)

`lrzip`

Bup und Obnam

Antwort3

Antwort4

verwandte Informationen