Escolha de sistema de arquivos em cluster para leitura/gravação de um grande número de arquivos pequenos

Escolha de sistema de arquivos em cluster para leitura/gravação de um grande número de arquivos pequenos

Estou montando um pequeno cluster Linux para meu laboratório. Atualmente temos um nó de login para envio de trabalho e 3 nós computacionais, e eles são conectados por LAN Gigabit (infelizmente sem banda infinita).

No início, simplesmente usei o NFS para exportar armazenamento compartilhado (pasta inicial) para usuários do cluster. Mas logo descobrimos que o NFS não funciona bem sob carga útil do mundo real.

Descobriu-se que é muito comum que os usuários do meu cluster leiam e gravem GBs de pequenos arquivos de imagem (um deles tem <100 KB) no armazenamento compartilhado. O NFS tem um desempenho muito ruim para E/S de arquivos pequenos.

Eu tenho um teste simples de desempenho de NFS/CIFS/SSHFS para gravação de arquivos pequenos. Os tempos para descompactar 20.000 arquivos pequenos (cerca de 600 MB no total) em cada sistema de arquivos são:

  • CIFS: 25~30s
  • SSHFS: 45~55s
  • NFS(v3/v4): tão lento que não esperei (a estimativa é de 10 minutos)

CIFS/SSHFS tem um desempenho muito bom em comparação com o NFS. Mas não é uma prática geral usar CIFS/SSHFS para pastas iniciais do Linux em um cenário de cluster de computador (e o CIFS não é um sistema de arquivos AFAIK realmente compatível com posix).

Qual é a sua opinião sobre a escolha de um sistema de arquivos de rede para carga útil de arquivos pequenos? Devo substituir o NFS por outros sistemas de arquivos distribuídos/cluster? Ou existe uma maneira de otimizar o NFS para arquivos pequenos?

Responder1

Se você tivesse uma configuração grande o suficiente, eu teria recomendado o IBM Spectrum Scale (anteriormente GPFS), mas dada a escala de suas operações, sugiro que você opte pelo ZFS com uma diferença: defina o atime como desativado. Se você realmente não se importa em registrar o tempo de acesso aos arquivos, o ZFS terá um desempenho muito bom no seu cenário.

informação relacionada