Как оценить, стоит ли использовать дедупликацию?

Как оценить, стоит ли использовать дедупликацию?

У меня есть раздел, в котором я планирую использовать дедупликацию.

Для профиля его данных я думаю, что это будет хороший выбор. Тем не менее, прежде чем это сделать, я хотел бы оценить воздействие более систематическим образом, чем "чувство".

Существует ли инструмент, который оценивает влияние дедупликации на раздел? (на уровне файлов или блоков).

На данный момент у меня есть ubuntu и ext4, но если дедупликация окажется ценной в этой ситуации, я рассматриваю возможность использования opendedup или lessfs. Любые другие предложения, даже если это может означать использование другого дистрибутива / бесплатного *nix.

решение1

Вы не указали, какая файловая система. Если вы говорите о ZFS, вы можете использовать команду zdb, чтобы увидеть, какой эффект имело бы включение дедупликации:

# zdb -S tank
Simulated DDT histogram:

bucket              allocated                       referenced          
______   ______________________________   ______________________________
refcnt   blocks   LSIZE   PSIZE   DSIZE   blocks   LSIZE   PSIZE   DSIZE
------   ------   -----   -----   -----   ------   -----   -----   -----
     1      775   96.8M   96.8M   96.8M      775   96.8M   96.8M   96.8M
     2        2    256K    256K    256K        6    768K    768K    768K
     4        3    384K    384K    384K       13   1.62M   1.62M   1.62M
   128        1    128K    128K    128K      158   19.8M   19.8M   19.8M
 Total      781   97.5M   97.5M   97.5M      952    119M    119M    119M

dedup = 1.22, compress = 1.00, copies = 1.00, dedup * compress / copies = 1.22

Связанный контент