O sistema de arquivos de rede falha durante altas velocidades de E/S

Question

Algumas sugestões aprendidas ao longo dos anos.

Minimize a carga no servidor NFS:

defina as opções de exportação NFS:async,insecure,no_subtree_check

definir opções de montagem NFSsoft,noatime,nodiratime,nolock,vers=3

também definido: noatime,nodiratimeem montagens de dados/tmp/scratch. Certifique-se de que a criptografia NFS esteja desativada para reduzir a carga. Pare o processo de bloqueio do NFS.

Tente habilitar os frames JUMBO para a rede em todos os hosts (se suportado pelo equipamento de rede) - defina MTU para 9k ou mais.
Certifique-se de que o armazenamento raid10 seja usado (evite raid5/6 a TODOS os custos) para E/S de gravação aleatória. Algum SSD?
Maximize o número de identificadores FS abertos (o padrão é 2K em alguns sistemas), defina-o para 1M ou mais.
Alguma chance de copiar o banco de dados de mapeamento com dados de entrada para o armazenamento do nó temporário local e combinar/classificar os arquivos Sam resultantes como uma etapa separada?
Aumente o tamanho do pedaço processado (para que ele seja processado por pelo menos 30 minutos ou mais).
Se possíveldividir trabalhos no nível mais alto possível(tente mapear/classificar 10 genomas/amostras separados em 10 nós diferentes em paralelo, em vez de tentar mapear cada genoma em série usando 10 hosts). Tente fazer checkpoint, assim que todos os processos forem concluídos.
Modifique uma fonte de programa para que ele leia os dados em pedaços maiores - como 1M em vez de 4k.
Esteja ciente da contenção de interconexão CPU/RAM (especialmente em sistemas de soquete AMD 4-8), às vezes a execução de 12 a 24 threads em uma caixa de 48 núcleos é muito mais rápida que 48 threads. Experimente diferentes níveis de utilização. Certifique-se de que o NUMA esteja ativado e configurado para sistemas com várias CPUs. Recompile com NUMA habilitado.

PS: Gerenciar um cluster eficiente é semelhante a planejar/gerenciar um canteiro de obras com mais de 1 mil trabalhadores...

Answer 1