Desduplicação barata/rápida com hardlinks?

Desduplicação barata/rápida com hardlinks?

Eu tenho hospedagem compartilhada com alguns milhares de instalações do Wordpress e há muito tempo queria ter uma boa maneira de remover todos os arquivos duplicados de maneira sensata e segura. Estou procurando melhores taxas de acertos no cache de disco e backups mais simples.

Estou apenas usando o Ext4 padrão, não algo como o ZFS que o possui integrado (a um custo).

Estou familiarizado com ferramentas como rdfind isquaseperfeito. Ele pode verificar todos os arquivos, encontrar as duplicatas e vinculá-los. Eu poderia executá-lo em um cron semanal fora dos horários de pico, tornando o custo praticamente zero.

O problema é que quero que uma única conta altere um arquivo para destruir o link físico e fornecer sua própria cópia do arquivo novamente. Dessa forma, um site atualizando o Wordpress ou um plugin não mexeria com nenhum outro site. Isso também eliminaria possíveis problemas de segurança, já que nenhuma conta seria capaz de adulterar os arquivos de outra conta. Uma espécie de cópia na gravação para links.

Algo assim é possível? Já tentei fazer algumas pesquisas mas não consegui encontrar nada.

Responder1

Parece que a melhor solução para desduplicação 'offline' eficiente são os reflinks do BTRFS.

Isso mantém os links 'destrutíveis' se algo tentar alterar um arquivo (por exemplo, uma atualização do Wordpress) e assim a segurança e a facilidade de uso da plataforma são mantidas.

Obrigado @bitinerant por apontar essa opção. Farei mais experimentos para ver se vale a pena migrar para meu cenário específico. O fato de eu poder migrar EXT4 para Btrfs torna isso muito mais viável que ZFS ou similar.

informação relacionada