¿Deduplicación barata/rápida con enlaces duros?

¿Deduplicación barata/rápida con enlaces duros?

Tengo alojamiento compartido con algunos miles de instalaciones de Wordpress y desde hace mucho tiempo he querido tener una buena manera de eliminar todos los archivos duplicados de una manera sensata y segura. Estoy buscando mejores índices de aciertos de caché de disco y copias de seguridad más simples.

Solo estoy usando Ext4 estándar, no algo como ZFS que lo tiene integrado (con un costo).

Estoy familiarizado con herramientas como rdfind.casiperfecto. Puede escanear todos los archivos, encontrar duplicados y vincularlos. Podría ejecutarlo en un cron semanal en horas de menor actividad, lo que haría que el costo fuera prácticamente cero.

El problema es que quiero que una sola cuenta cambie un archivo para destruir el enlace físico y volver a proporcionar su propia copia del archivo. De esta manera, un sitio que actualice Wordpress o un complemento no interferirá con ningún otro sitio. Eso también eliminaría posibles problemas de seguridad, ya que ninguna cuenta podría alterar los archivos de otra cuenta. Una especie de copia en escritura para enlaces.

¿Es posible algo así? He intentado hacer algunas búsquedas pero no he podido encontrar nada.

Respuesta1

Parece que la mejor solución para una deduplicación eficiente 'fuera de línea' son los enlaces de referencia BTRFS.

Eso mantiene los enlaces "destructibles" si algo intenta cambiar un archivo (por ejemplo, una actualización de Wordpress) y así se mantiene la seguridad y facilidad de uso de la plataforma.

Gracias @bitinerant por señalar esa opción. Haré más experimentos para ver si vale la pena migrar en mi escenario particular. El hecho de que pueda migrar EXT4 a Btrfs lo hace mucho más factible que ZFS o similar.

información relacionada