Дешевая/быстрая дедупликация с жесткими ссылками?

Дешевая/быстрая дедупликация с жесткими ссылками?

У меня есть общий хостинг с несколькими тысячами установок Wordpress, и я давно хотел иметь хороший способ удаления всех дубликатов файлов разумным и безопасным способом. Я ищу лучшие показатели попадания в кэш диска и более простые резервные копии.

Я просто использую стандартную Ext4, а не что-то вроде ZFS, в которой она встроена (за определенную плату).

Я знаком с такими инструментами, как rdfind.почтиИдеально. Он может сканировать все файлы, находить дубликаты и жестко связывать их вместе. Я мог бы запускать его на еженедельном cron в часы непиковой нагрузки, что сделало бы стоимость практически нулевой.

Проблема в том, что я хочу, чтобы один аккаунт, изменяющий файл, уничтожил жесткую ссылку и снова предоставил свою копию файла. Таким образом, один сайт, обновляющий Wordpress или плагин, не будет мешать другим сайтам. Это также устранит потенциальные проблемы безопасности, поскольку ни один аккаунт не сможет вмешиваться в файлы другого аккаунта. Что-то вроде Copy-on-write для ссылок.

Возможно ли что-то подобное? Я пробовал поискать, но ничего не нашел.

решение1

Похоже, что наилучшим решением для эффективной «офлайн» дедупликации являются рефссылки BTRFS.

Это позволяет сохранять ссылки «разрушаемыми» в случае попытки изменить файл (например, обновление Wordpress), что обеспечивает безопасность и простоту использования платформы.

Спасибо @bitinerant за указание на этот вариант. Я буду проводить дальнейшие эксперименты, чтобы увидеть, стоит ли мигрировать в моем конкретном сценарии. Тот факт, что я могу мигрировать EXT4 в Btrfs, делает это гораздо более осуществимым, чем ZFS или что-то подобное.

Связанный контент