ユーザーがファイルを置くサーバーをホストしていて、一日の終わりにこれらすべてのファイルが保存サーバーに取得されるとします。
問題は、これらのファイルの多くが重複しており、同じファイルを 10 回コピーしなくて済むようにしたいということです。
転送されるファイルごとにハッシュを取得して、各ファイルが一意であることを確認することを考えていましたが、もっと良い解決策があるかもしれません。
答え1
1 つの選択肢は、これを 2 つのタスクに分割することです。
まず、ソースマシン上の重複ファイルを見つけて、重複が表現されながらもディスクスペースを消費しないように、シンボリックリンク、ショートカットなどを作成します。重複を見つけるのに非常に効果的であることがわかったオプションの1つは、よく調整されたPythonスクリプトSO で。ユースケースに合わせて変更する必要があるかもしれません。
2 番目のステップは、もちろん、シンボリック リンクまたはショートカット リンクを保持する方法でファイルを他のマシンにコピーすることです。