重複した情報を含む一連のバックアップ(手動で作成)がありますが、ディレクトリ構造を反復処理して MD5 ハッシュで重複ファイルを識別し、ファイルの 1 つを削除するプログラム/スクリプト/コマンドはありますか?
Windows/Linux のどちらのソリューションも機能します。
答え1
個人的には見つけるこのためです。リンク先のページに記載されているように、このためのツールは他にもたくさんあり、私はそれらのほとんどを試しましたが、rdfind は、まず各ファイルの最初と最後の数バイトをスキャンし、これらが同一の場合にのみ MD5 サムを計算するという最適化機能を備えているため、私のバックアップでは、これまで試したどのツールよりもずっと高速です。
あなたが要求する使用法では、実行する必要があります
rdfind --deleteduplicates backup_a backup_b
ただし、-makehardlinks オプションを付けて実行することをお勧めします。これにより、重複ファイルがハード リンクに置き換えられ (正常なファイル システムにデータを保存していると仮定)、各バックアップは現在と同じように見えますが、重複データは 1 回だけ保存されます。