![HPC/EC2 – otimizando o NFS para confiabilidade](https://rvso.com/image/617839/HPC%2FEC2%20%E2%80%93%20otimizando%20o%20NFS%20para%20confiabilidade.png)
No AWS-EC2, configurei um cluster de máquinas virtuais Linux feitas de um servidor de arquivos NFS e muitos clientes. Se o número de clientes estiver acima de aproximadamente 20, sob E/S intensa, estou enfrentando perda de integridade do arquivo: por exemplo, arquivos compactados gravados por um cliente no servidor estão corrompidos.
Estou me perguntando qual é o melhor conjunto de parâmetros NFS para aumentarconfiabilidadede transferência de dados neste ambiente.
Por enquanto os sinalizadores de montagem são:
Flags: rw,vers=3,rsize=262144,wsize=262144,hard,proto=tcp,timeo=600,retrans=2
O tamanho do MTU é 1500, o número de demônios NFS é 8.
Devo diminuir rsize e wsize abaixo do MTU e aumentar o número de deamons NFS?
Há mais alguma coisa que possa ser melhorada?
Muito obrigado.
Responder1
Para o tamanho do cluster que está sendo usado, pode ser uma boa ideia considerar a mudança para um sistema de arquivos paralelo comobrilho. Alternativamente, se o cluster estiver configurado corretamente, cada nó deverá estar ciente de todos os outros nós via DNS ou por pesquisas /etc/hosts
e deverá ter chaves ssh apropriadas para acessá-los sem uma senha.
Se este for o caso, cada nó poderia simplesmente copiar os arquivos após a conclusão da computação/compactação, o que negaria a necessidade de NFS. Embora esta solução provavelmente não proporcione um desempenho ideal, dependendo da natureza da virtualização dos nós de computação, rede e armazenamento, ela pode ser uma boa opção.
Que tipo de sistema de gerenciamento/provisionamento de cluster você está usando? Normalmente, durante a configuração de um nó principal, o armazenamento compartilhado apropriado para nós de computação também é configurado. Usando uma ferramenta comoWarulfouROCHASpode ajudar a garantir que os nós de computação sejam provisionados corretamente e há muitos guias e designs de referência para configurar clusters com essas ferramentas disponíveis online.