Günstige/schnelle Deduplizierung mit Hardlinks?

Günstige/schnelle Deduplizierung mit Hardlinks?

Ich habe Shared Hosting mit ein paar tausend Wordpress-Installationen und wollte schon seit Ewigkeiten eine gute Möglichkeit haben, alle doppelten Dateien auf vernünftige und sichere Weise zu entfernen. Ich suche nach besseren Disk-Cache-Trefferquoten und einfacheren Backups.

Ich verwende lediglich Standard-Ext4 und nicht etwas wie ZFS, in das es (gegen Gebühr) integriert ist.

Ich bin vertraut mit Tools wie rdfind istfastperfekt. Es kann alle Dateien scannen, Duplikate finden und sie fest miteinander verknüpfen. Ich könnte es wöchentlich außerhalb der Spitzenzeiten auf einem Cron ausführen, sodass die Kosten praktisch bei null liegen.

Das Problem ist, dass ich möchte, dass ein einzelnes Konto, das eine Datei ändert, den Hardlink zerstört und wieder eine eigene Kopie der Datei erstellt. Auf diese Weise würde eine Site, die Wordpress oder ein Plugin aktualisiert, keine anderen Sites durcheinanderbringen. Dadurch würden auch potenzielle Sicherheitsprobleme beseitigt, da kein Konto die Dateien eines anderen Kontos manipulieren könnte. Eine Art Copy-on-Write für Links.

Ist so etwas möglich? Ich habe versucht, ein paar Suchen durchzuführen, konnte aber nichts finden.

Antwort1

Es scheint, dass BTRFS-Reflinks die beste Lösung für eine effiziente Offline-Deduplizierung sind.

Dadurch bleiben die Links „zerstörbar“, wenn versucht wird, eine Datei zu ändern (z. B. ein Wordpress-Update), und so bleiben die Sicherheit und Benutzerfreundlichkeit der Plattform erhalten.

Danke, @bitinerant, dass du auf diese Option hingewiesen hast. Ich werde weitere Experimente durchführen, um zu sehen, ob sich die Migration für mein spezielles Szenario lohnt. Die Tatsache, dass ich EXT4 auf Btrfs migrieren kann, macht es viel praktikabler als ZFS oder ähnliches.

verwandte Informationen