用於計算部分 MD4 校驗和的 PowerShell 腳本

Question

上面的程式碼效率非常低，因為每次循環迭代都會建立一個新的巨大緩衝區和一個新流。這溪流已經為您處理了偏移量和所有內容，因此循環體實際上非常簡單：

Param (
    [parameter(Mandatory)][string]$InputFile,
    [int]$ChunkSize = 9728000
)

. .\md4.ps1
# Or copy the md4.ps1 content here, or add to the $PROFILE

class Md4Info {
    [string]$Checksum
    [int]$Offset
}

$stream = [IO.FileStream]::new($InputFile, [IO.FileMode]::Open, [IO.FileAccess]::Read)
$buffer = [Byte[]]::new($ChunkSize)
while (($readSize = $stream.Read($buffer, 0, $ChunkSize)) -gt 0) {
    [Md4Info]@{
        Checksum = Get-MD4 -bArray $buffer[0..$readSize]
        Offset = $stream.Position
    }
}
$stream.Dispose()

這對你的程式碼來說是一個巨大的改進，但顯然它不是最有效的方法因為md4.ps1上面的腳本是為非常舊的 PowerShell 版本編寫的，效率非常低。它也無法正確處理 Unicode，因此使用-String可能會傳回損壞的輸出。無論如何，您可以透過將上面更新的程式碼儲存為 *.ps1 檔案（例如Get-ChunkMd4.ps1.範例輸出：

PS D:\test> .\Get-ChunkMd4.ps1 D:\test\file.txt

Checksum                         Offset
--------                         ------
11cf3ecf1a3a9d1b270c9e313901441d      0

PS D:\test> .\Get-ChunkMd4.ps1 D:\test\file.mp4 -ChunkSize 1MB

Checksum                          Offset
--------                          ------
8932ec620ef5df53f519e6271931bc0d       0
92a8f97be075655bfd1e8670368ff2a3 1048576
c6ec8e0d67b42cc3a9a1bc9d5c9fa8f0 2097152
1339bac99b94397b5848d1d86b0cc49e 3145728
fd643f329daeb73e07e24194fd1b0a31 4194304

也就是說，你永遠無法擁有最多除非您使用硬體加速和/或 SIMD 編寫一些高效的平行程式碼並編譯為本機程式碼，否則這是一種有效的方法。本機 MD4 函式庫的運作速度可能比上面的腳本快數千或數百萬倍。事實上，使用 AVX-512 的良好雜湊庫可以在3-30GB/秒或更多，但md4.ps1太糟糕了，在我的機器 (Ryzen 5 4600H) 上散列一個 8.2 MB 的小檔案就需要 4 分鐘，這是~29.5 KB/秒！！請放心，當您下載視訊檔案時，您甚至無法足夠快地對其進行哈希處理。您確實應該找到一個這樣的^第三方庫/工具，並使用上面的循環向它們提供數據

另請注意，如果您經常使用某個功能，那麼您應該將其添加到設定檔中，如下所示

Add-Content -Path $profile -Value ". .\md4.ps1"

現在您可以刪除. .\md4.ps1腳本中的，因為每次執行 PowerShell 時都會載入該函數

Answer 1