Comprimir copias de seguridad de instantáneas con duplicados

Comprimir copias de seguridad de instantáneas con duplicados

Tengo un conjunto de copias de seguridad de principalmente fotos. El directorio se parece a esto:

backup/Day1/photos/1.jpg
               .../2.jpg
backup/Day2/photos/2.jpg
               .../3.jpg
               .../4.jpg
backup/DayN/photos/2.jpg
               .../3.jpg
               .../9.jpg

Los archivos con el mismo nombre son idénticos. Hay muchos duplicados. Debido a la forma en que funciona el sistema de respaldo, no es posible crear respaldos incrementales directamente. Siempre recibo el vertedero completo cada día.

Si quiero crear un archivo comprimido para un rango de fechas, digamos del día 5 al 9,¿Cuál es la mejor herramienta/algoritmo de compresión para hacer eso? ¿Cuál realiza bien la deduplicación?(No cuento con comprimir el jpeg)

Respuesta1

ZPAQes un archivador poco conocido que realiza deduplicación y, AFAIK, el único. Como ZPAQ también realiza versiones, puede mantener cada copia de seguridad en un único archivo, lo que reduce aún más el uso de espacio.

O bien, podría utilizar un sistema de control de versiones, como Git, que realiza la deduplicación de archivos de forma automática.

O, si quieres algo más complicado, puedes jugar con Btrfs o ZFS, que son sistemas de archivos con deduplicación incorporada. Sin embargo, la deduplicación de Btrfs no es tan buena como la de ZFS.

Respuesta2

WIM (Formato de imagen de Windows) es probablemente lo que estás buscando. Si bien ZPAQ es nada menos que una herramienta increíble (yo mismo la uso), bloquea la deduplicación basada en mientras que la deduplicación de WIM se basa en archivos (MS lo llama SIS - Almacenamiento de instancia única, consulteKit de herramientas de implementación de Microsoft mediante MDT y almacenamiento de instancia única).

Dado que la pregunta menciona que son los archivos mismos los que se repiten, se puede argumentar que la deduplicación basada en archivos sería una mejor opción, especialmente teniendo en cuenta que estamos hablando de JPEGS.

Tanto WIM como ZPAQ:

Ventajas de WIM:

  • Ampliamente adoptado y apoyado
  • Más rápido
  • Resultados similares a ZPAQ

Desventajas de WIM

  • Desduplicación a nivel de archivo (inútil para archivos (especialmente si son grandes) con pequeños cambios).

Ventajas de ZPAQ:

  • Desduplicación a nivel de bloque: increíble para datos repetidos masivamente con pequeños cambios entre versiones de archivos, por ejemplo, pero no solo
  • Herramienta increíble, única en lo que hace y cómo lo hace, hasta donde yo sé.

Desventajas de ZPAQ:

  • un poco más lento (no tanto como me imagino), cuando la deduplicación está activada y la compresión está configurada al máximo (5), por lo que solo hay una ventaja marginal si la deduplicación a nivel de archivo es suficiente
  • No ampliamente adoptado
  • No hay buena compatibilidad con GUI (es importante para las restauraciones y la navegación de archivos)

información relacionada