HPC/EC2 – otimizando o NFS para confiabilidade

HPC/EC2 – otimizando o NFS para confiabilidade

No AWS-EC2, configurei um cluster de máquinas virtuais Linux feitas de um servidor de arquivos NFS e muitos clientes. Se o número de clientes estiver acima de aproximadamente 20, sob E/S intensa, estou enfrentando perda de integridade do arquivo: por exemplo, arquivos compactados gravados por um cliente no servidor estão corrompidos.

Estou me perguntando qual é o melhor conjunto de parâmetros NFS para aumentarconfiabilidadede transferência de dados neste ambiente.

Por enquanto os sinalizadores de montagem são:

Flags:  rw,vers=3,rsize=262144,wsize=262144,hard,proto=tcp,timeo=600,retrans=2

O tamanho do MTU é 1500, o número de demônios NFS é 8.

Devo diminuir rsize e wsize abaixo do MTU e aumentar o número de deamons NFS?

Há mais alguma coisa que possa ser melhorada?

Muito obrigado.

Responder1

Para o tamanho do cluster que está sendo usado, pode ser uma boa ideia considerar a mudança para um sistema de arquivos paralelo comobrilho. Alternativamente, se o cluster estiver configurado corretamente, cada nó deverá estar ciente de todos os outros nós via DNS ou por pesquisas /etc/hostse deverá ter chaves ssh apropriadas para acessá-los sem uma senha.

Se este for o caso, cada nó poderia simplesmente copiar os arquivos após a conclusão da computação/compactação, o que negaria a necessidade de NFS. Embora esta solução provavelmente não proporcione um desempenho ideal, dependendo da natureza da virtualização dos nós de computação, rede e armazenamento, ela pode ser uma boa opção.

Que tipo de sistema de gerenciamento/provisionamento de cluster você está usando? Normalmente, durante a configuração de um nó principal, o armazenamento compartilhado apropriado para nós de computação também é configurado. Usando uma ferramenta comoWarulfouROCHASpode ajudar a garantir que os nós de computação sejam provisionados corretamente e há muitos guias e designs de referência para configurar clusters com essas ferramentas disponíveis online.

informação relacionada