部分的な MD4 チェックサムを計算する PowerShell スクリプト

Question

上記のコードは、ループの繰り返しごとに新しい巨大なバッファと新しいストリームが作成されるため、非常に非効率的です。ストリームすでにオフセットやその他の処理が行われているため、ループ本体は実際には非常にシンプルです。

Param (
    [parameter(Mandatory)][string]$InputFile,
    [int]$ChunkSize = 9728000
)

. .\md4.ps1
# Or copy the md4.ps1 content here, or add to the $PROFILE

class Md4Info {
    [string]$Checksum
    [int]$Offset
}

$stream = [IO.FileStream]::new($InputFile, [IO.FileMode]::Open, [IO.FileAccess]::Read)
$buffer = [Byte[]]::new($ChunkSize)
while (($readSize = $stream.Read($buffer, 0, $ChunkSize)) -gt 0) {
    [Md4Info]@{
        Checksum = Get-MD4 -bArray $buffer[0..$readSize]
        Offset = $stream.Position
    }
}
$stream.Dispose()

これはあなたのコードに比べて大きな改善ですが、明らかに最も効率的な方法なぜならms4.ps1 の翻訳です。上記のスクリプトは非常に古いバージョンの PowerShell 用に書かれたもので、非常に非効率的です。また、Unicode を正しく処理しないため、を使用すると-String壊れた出力が返される可能性があります。とにかく、上記の更新されたコードをなどの *.ps1 ファイルとして保存して試すことができますGet-ChunkMd4.ps1。サンプル出力:

PS D:\test> .\Get-ChunkMd4.ps1 D:\test\file.txt

Checksum                         Offset
--------                         ------
11cf3ecf1a3a9d1b270c9e313901441d      0

PS D:\test> .\Get-ChunkMd4.ps1 D:\test\file.mp4 -ChunkSize 1MB

Checksum                          Offset
--------                          ------
8932ec620ef5df53f519e6271931bc0d       0
92a8f97be075655bfd1e8670368ff2a3 1048576
c6ec8e0d67b42cc3a9a1bc9d5c9fa8f0 2097152
1339bac99b94397b5848d1d86b0cc49e 3145728
fd643f329daeb73e07e24194fd1b0a31 4194304

そうは言っても、ほとんどハードウェアアクセラレーションやSIMDを使った非常に効率的な並列コードを書いてネイティブコードにコンパイルしない限り、効率的な方法とは言えません。ネイティブMD4ライブラリは、上記のスクリプトよりも数千倍または数百万倍高速に実行できます。実際、AVX-512を使用した優れたハッシュライブラリは、3～30 GB/秒またはそれ以上ですが、md4.ps1私のマシン（Ryzen 5 4600H）では8.2MBの小さなファイルをハッシュするのに4分もかかります。約29.5KB/秒!!!動画ファイルをダウンロードするときにハッシュ化が十分速くできないことは間違いありません。サードパーティのライブラリ/ツールを見つけて、上記のループでデータを入力する必要があり^ます。

また、関数を頻繁に使用する場合は、次のようにプロファイルに追加する必要があります。

Add-Content -Path $profile -Value ". .\md4.ps1"

. .\md4.ps1PowerShellが実行されるたびに関数が読み込まれるので、スクリプト内のを削除するだけで済みます。

Answer 1