7-Zip Ultra: ¿comprimir varios otros archivos de ultracompresión 7-zip tiene alguna diferencia de tamaño significativa?

7-Zip Ultra: ¿comprimir varios otros archivos de ultracompresión 7-zip tiene alguna diferencia de tamaño significativa?

Tengo muchos archivos, en su mayoría png y pdf, algunos svg y otros, que deben transferirse. Archivos con un valor de varios TB y tamaños individuales desde unos pocos kb hasta unos pocos MB. El problema es que tengo que transferirlos de forma remota desde un sitio que tiene una carga deficiente (200 kb 0 700 kb/seg).

Es importante que haga una copia de seguridad de estos archivos lo antes posible, pero actualmente la única manera es hacerlo por cable. Esto llevará semanas, lo cual es demasiado. Desafortunadamente, no tengo a nadie local en quien pueda confiar para transferir manualmente y enviarme el disco duro. Así que me queda comprimir tanto como sea posible en archivos pequeños.

He utilizado 7-Zip en compresión Ultra (LZMA2) para archivar los archivos y dividirlos en fragmentos de 10 MB (en diferentes grupos para diferentes categorías de archivos). Esto funcionó muy bien.

Si hago lo mismo con todos ellos juntos, comprimo todos los grupos (separados por carpetas) en un único archivo dividido 7-Zip Ultra LZMA2 de 10 MB, ¿ayudará en algo o será una pérdida de tiempo? ¿Podrá fusionar datos para comprimirlos en mayor grado y generar menos archivos de 10 MB en total?

NOTA: La razón por la que lo rompí en pedazos es porque tomará mucho tiempo transferirlo pase lo que pase, por lo que los pedazos pequeños evitarán una falla en la red, un reinicio de la computadora o cualquier otro problema que arruine todo.

Respuesta1

Lo sentimos, pero esto será en gran medida una pérdida de tiempo.

La forma en que funciona la compresión de datos es identificar patrones/suposiciones y representarlos de una manera más eficiente. Sin embargo, el resultado final no tiende a crear patrones comprimibles.

Es posible tomar algunos datos que han sido comprimidos bastante mal, comprimirlos de manera más agresiva y obtener algo de ganancia. Por lo general, la ganancia es inferior al 3%, con un 10% en casos bastante raros. Sin embargo, hay un poco de gastos generales. Otros resultados, que son bastante comunes, son aproximadamente un 0% de ahorro, con cierto costo, por lo que en realidad puedes aumentar el tamaño del archivo.

Siéntase libre de probarlo si lo desea, pero los resultados comunes de tales esfuerzos son mejoras insignificantes o inexistentes, o incluso empeoran las cosas.

El hecho es que no todos los datos se pueden comprimir. El argumento del "conteo", también conocido como el principio del "casillero", explica por qué. (Ver:Preguntas frecuentes sobre compresión, sección 8.) Básicamente, si los datos comprimidos son iguales o más pequeños (usando menos bits), hay menos archivos comprimidos posibles que archivos sin comprimir, lo que demuestra que no todos los archivos únicos posibles sin comprimir se pueden representar con menos bits.

De hecho, la mayoría de los datos no se pueden comprimir. Afortunadamente para nosotros, la mayoría de los datos interesantes son comprimibles. Por ejemplo, la mayoría de las imágenes no parecen imágenes aleatorias en blanco y negro (por ejemplo, “nieve” en televisores antiguos que mostraban píxeles monocromáticos aleatorios de intensidad aleatoria). La mayoría de las hojas de cálculo en realidad no tienen números completamente aleatorios (incluidos los números en billones negativos y fracciones de uno que tienen cuarenta y tres decimales y signos más justo antes de los signos de división).

Incluso el texto tiene patrones, como el uso intensivo de vocales y el uso ocasional de signos de puntuación seguidos de espacios y luego de letras mayúsculas.

Sin embargo, los datos comprimidos tienden a tomar patrones útiles y representarlos de manera eficiente. De modo que el proceso de compresión de datos elimina las ineficiencias. El resultado es que normalmente hay poca ineficiencia que podamos identificar y almacenar de manera más eficiente.

información relacionada