
Eu tenho uma pasta cheia de arquivos de backup de e-mail (do offlineimap). Uma dessas pastas contém 87 mil arquivos, dos quais 68 mil têm tamanho entre 512 e 1024 bytes. (Esta pasta é bastante representativa das demais.) A distribuição de tamanho total é assim:
Size bin % by count % by space
512 0.08% 0.00%
1024 77.37% 74.58%
2048 1.65% 1.62%
4096 3.92% 4.05%
8192 6.11% 6.78%
16384 3.68% 4.25%
32768 3.07% 3.66%
65536 1.77% 2.15%
131072 0.75% 0.92%
262144 0.36% 0.44%
524288 0.33% 0.41%
1048576 0.30% 0.37%
2097152 0.21% 0.27%
4194304 0.20% 0.25%
8388608 0.11% 0.14%
16777216 0.08% 0.10%
Minha dúvida é: qual o melhor tamanho de registro a ser usado para esses dados? Eu ficaria tentado a pensar em 1k, mas isso é bem menor que os valores normais recomendados e estou preocupado com a sobrecarga dos metadados.
Li alguns artigos que abordam isso, mas não cheguei a nenhuma conclusão. Por exemplo,um artigoexamina a eficiência de armazenamento ao usar tamanhos de registro menores que a média dos arquivos. Seu tamanho mínimo médio de arquivo era 128k e ele descobriu que, com a compactação, a eficiência do armazenamento aumentava à medida que o tamanho do bloco aumentava de 512 para 128k, mas ele não testou tamanhos de bloco maiores que seus arquivos, portanto a tendência completa não está clara.
Outra boa leitura foieste tópico do redditque descreve a diferença entre tamanhos de registro e bloco e aborda o ajuste de desempenho do SSD.
Responder1
Responder2
Raramente altero o tamanho do registro em pools ZFS. O padrão de 128K é adequado para a maioria das cargas de trabalho.
Você pode facilmente comparar isso em vários tamanhos de registro...
Se o desempenho do armazenamento for sua preocupação, há mais oportunidades de otimização em outros lugares. Você tem detalhes sobre o sistema operacional/hardware/requisitos?