有沒有辦法透過哈希值搜尋檔案？

Question 1

Linux 範例：

hash='74e7432df4a66f246b5214d60b190b67e2f6ce52'
find . -type f -exec sh -c '
   sha1sum "$2" | cut -f 1 -d " " | sed "s|^\\\\||" | grep -Eqi "$1"
' find-sh "$hash" {} \; -print

這段程式碼比您想像的更複雜，因為：

它的目的是正確處理帶有空格、換行符、反斜線、引號、特殊字元等的檔案名稱（更改-print為-print0以進一步解析它們）；
它旨在接受散列作為正則表達式（與grep -Eie相容egrep），
例如'^00|00$'，如果文件散列以 ; 開頭或結尾，則將匹配00；一個更實際的範例是一次搜尋多個雜湊值：（'74…|a9…|…|…|…'為了簡潔，省略號，使用完整雜湊值）。

您可以使用*sum具有相容介面的其他工具（例如md5sum）。

Answer

Linux 範例：

hash='74e7432df4a66f246b5214d60b190b67e2f6ce52'
find . -type f -exec sh -c '
   sha1sum "$2" | cut -f 1 -d " " | sed "s|^\\\\||" | grep -Eqi "$1"
' find-sh "$hash" {} \; -print

這段程式碼比您想像的更複雜，因為：

它的目的是正確處理帶有空格、換行符、反斜線、引號、特殊字元等的檔案名稱（更改-print為-print0以進一步解析它們）；
它旨在接受散列作為正則表達式（與grep -Eie相容egrep），
例如'^00|00$'，如果文件散列以 ; 開頭或結尾，則將匹配00；一個更實際的範例是一次搜尋多個雜湊值：（'74…|a9…|…|…|…'為了簡潔，省略號，使用完整雜湊值）。

您可以使用*sum具有相容介面的其他工具（例如md5sum）。

Question 2

如果您有 PowerShell v.4.0 或更高版本，則可以使用下列命令：

Get-ChildItem _search_location_ -Recurse | Get-FileHash | 
Where-Object hash -eq (Get-FileHash _search_file_).hash | Select path

_search_location_您要在其中搜尋重複項的資料夾或磁碟在哪裡，並且_search_file_是在某處有重複項的檔案。您可以將此命令放入循環中以搜尋多個文件，或新增| Remove-Item至行尾以自動刪除重複項。

另請注意，此命令僅適用於小型搜尋資料夾 - 如果您的搜尋位置有數千個檔案（如整個 HDD），則將花費大量時間。

Answer

如果您有 PowerShell v.4.0 或更高版本，則可以使用下列命令：

Get-ChildItem _search_location_ -Recurse | Get-FileHash | 
Where-Object hash -eq (Get-FileHash _search_file_).hash | Select path

_search_location_您要在其中搜尋重複項的資料夾或磁碟在哪裡，並且_search_file_是在某處有重複項的檔案。您可以將此命令放入循環中以搜尋多個文件，或新增| Remove-Item至行尾以自動刪除重複項。

另請注意，此命令僅適用於小型搜尋資料夾 - 如果您的搜尋位置有數千個檔案（如整個 HDD），則將花費大量時間。

Question 3

這是一個有趣的問題。我一直在使用一個名為 fdupes 的工具來完成類似的事情。 Fdupes 將遞歸搜尋目錄並將每個檔案與其他檔案進行比較。首先，它比較大小，如果大小相同，則建立檔案的雜湊值並進行比較，如果雜湊值相同，則實際上逐字節遍歷每個檔案並進行比較。

當 if 找到所有真正相同的檔案時，您可以讓它做幾件事。我讓它刪除重複檔案並在其位置建立硬連結（從而節省硬碟空間），儘管您可以讓它簡單地輸出重複檔案的位置而不對它們執行任何操作。這就是您所詢問的場景。

fdupes 的一些缺點是，據我所知，它僅適用於 Linux，並且由於它將每個檔案與其他檔案進行比較，因此需要相當多的 I/O 和運行時間。它不會“搜尋”每個文件，但會列出具有相同雜湊值的所有文件。

我強烈推薦它，並將其設定為每天在 cron 作業中運行，這樣我就不會出現任何不必要的資料重複（當然，它不包括我的備份）。

Fdupes 來源頁面

Answer