7-Zip Ultra – Gibt es beim Zippen mehrerer anderer 7-Zip-Ultra-Komprimierungsdateien einen signifikanten Größenunterschied?

7-Zip Ultra – Gibt es beim Zippen mehrerer anderer 7-Zip-Ultra-Komprimierungsdateien einen signifikanten Größenunterschied?

Ich habe viele Dateien, hauptsächlich PNG und PDF, einige SVG und verschiedene andere, die übertragen werden müssen. Mehrere TB groß, einzelne Dateien mit Größen von einigen KB bis einigen MB. Das Problem ist, dass ich sie remote von einer Site übertragen muss, die eine schlechte Upload-Geschwindigkeit hat (200 KB bis 700 KB/Sek.).

Es ist wichtig, dass ich diese Dateien so schnell wie möglich sichere, aber derzeit geht das nur über das Kabel. Das wird Wochen dauern, was viel zu lange ist. Leider habe ich hier niemanden, dem ich vertrauen kann, dass er mir die Festplatte manuell überträgt und schickt. Also bleibt mir nichts anderes übrig, als so viel wie möglich in kleine Dateien zu komprimieren.

Ich habe 7-Zip mit Ultra-Komprimierung (LZMA2) verwendet, um die Dateien zu archivieren und in 10 MB große Blöcke aufzuteilen (in verschiedene Gruppen für verschiedene Dateikategorien). Das hat super funktioniert.

Wenn ich das Gleiche mit allen zusammen mache und alle Gruppen (nach Ordnern getrennt) in ein einzelnes 7-Zip Ultra LZMA2 10 MB großes geteiltes Archiv komprimiere, hilft das dann überhaupt oder ist es reine Zeitverschwendung? Kann ich die Daten zusammenführen, um sie stärker zu komprimieren und insgesamt weniger 10 MB große Dateien zu erhalten?

HINWEIS: Der Grund, warum ich es in Abschnitte aufgeteilt habe, liegt darin, dass die Übertragung in jedem Fall sehr lange dauern wird. Kleine Abschnitte verhindern also, dass ein Netzwerkausfall, ein Neustart des Computers oder ein anderes Problem die ganze Sache durcheinanderbringen könnte.

Antwort1

Tut mir leid, aber das wäre größtenteils Zeitverschwendung.

Die Funktionsweise der Datenkomprimierung besteht darin, Muster/Annahmen zu erkennen und diese effizienter darzustellen. Das Endergebnis führt jedoch nicht dazu, dass komprimierbare Muster entstehen.

Es ist möglich, einige Daten, die ziemlich schlecht komprimiert wurden, stärker zu komprimieren und so etwas zu gewinnen. Normalerweise beträgt der Gewinn weniger als 3 %, in ganz seltenen Fällen sogar 10 %. Allerdings entsteht dabei ein kleiner Mehraufwand. Andere Ergebnisse, die recht häufig sind, sind also Einsparungen von ungefähr 0 %, allerdings mit einigen Kosten, sodass Sie die Dateigröße tatsächlich erhöhen können.

Sie können es ruhig ausprobieren, wenn Sie möchten, aber die üblichen Ergebnisse solcher Bemühungen sind kaum oder gar keine Verbesserungen oder führen sogar zu einer Verschlechterung.

Tatsache ist, dass nicht alle Daten komprimiert werden können. Das „Zähl“-Argument, auch bekannt als „Schubladenprinzip“, erklärt, warum. (Siehe:Komprimierung FAQ Abschnitt 8.) Grundsätzlich gilt: Wenn die komprimierten Daten gleich oder kleiner sind (unter Verwendung von weniger Bits), gibt es weniger mögliche komprimierte Dateien als unkomprimierte Dateien, was beweist, dass nicht jede mögliche einzigartige unkomprimierte Datei mit weniger Bits dargestellt werden kann.

Tatsächlich sind die meisten Daten nicht komprimierbar. Glücklicherweise sind die meisten interessanten Daten komprimierbar. Die meisten Bilder sehen beispielsweise nicht wie zufällige Schwarzweißbilder aus (z. B. „Schnee“ auf alten Fernsehgeräten, die zufällige monochrome Pixel mit zufälliger Intensität anzeigten). Die meisten Tabellenkalkulationen enthalten tatsächlich keine völlig zufälligen Zahlen (einschließlich Zahlen im negativen Billionenbereich und Bruchteile von Eins mit 43 Dezimalstellen und Pluszeichen direkt vor Divisionszeichen).

Sogar Texte weisen Muster auf, wie etwa die häufige Verwendung von Vokalen und die gelegentliche Verwendung von Satzzeichen, gefolgt von Leerzeichen und dann Großbuchstaben.

Komprimierte Daten neigen jedoch dazu, die nützlichen Muster zu übernehmen und sie auf effiziente Weise darzustellen. Der Datenkomprimierungsprozess beseitigt also Ineffizienzen. Das Ergebnis ist, dass es normalerweise nur wenige Ineffizienzen gibt, die wir identifizieren und effizienter speichern können.

verwandte Informationen