重複排除を使用する価値があるかどうかを評価するにはどうすればよいですか?

重複排除を使用する価値があるかどうかを評価するにはどうすればよいですか?

重複排除の使用を検討しているパーティションがあります。

データのプロファイルとしては良い選択になると思います。しかし、実行する前に、「感覚」ではなく、より体系的な方法で影響を評価したいと思います。

パーティションに対する重複排除の影響を評価するツールはありますか? (ファイル レベルまたはブロック レベル)

今のところ、Ubuntu と ext4 を使用していますが、この状況で重複排除が有益であることがわかったら、opendedup または lessfs の使用を検討しています。別のディストリビューションや無料の *nix を使用する必要があるとしても、他に何か提案があれば教えてください。

答え1

どのファイルシステムか指定していません。ZFS について話している場合は、zdb コマンドを使用して、dedup をオンにするとどのような効果があるかを確認できます。

# zdb -S tank
Simulated DDT histogram:

bucket              allocated                       referenced          
______   ______________________________   ______________________________
refcnt   blocks   LSIZE   PSIZE   DSIZE   blocks   LSIZE   PSIZE   DSIZE
------   ------   -----   -----   -----   ------   -----   -----   -----
     1      775   96.8M   96.8M   96.8M      775   96.8M   96.8M   96.8M
     2        2    256K    256K    256K        6    768K    768K    768K
     4        3    384K    384K    384K       13   1.62M   1.62M   1.62M
   128        1    128K    128K    128K      158   19.8M   19.8M   19.8M
 Total      781   97.5M   97.5M   97.5M      952    119M    119M    119M

dedup = 1.22, compress = 1.00, copies = 1.00, dedup * compress / copies = 1.22

関連情報