HPC / EC2: optimización de NFS para mayor confiabilidad

HPC / EC2: optimización de NFS para mayor confiabilidad

En AWS-EC2, configuré un grupo de máquinas virtuales Linux formado por un servidor de archivos NFS y muchos clientes. Si el número de clientes es superior a ~20, en condiciones de E/S intensas, estoy experimentando una pérdida de integridad del archivo: por ejemplo, los archivos comprimidos con gzip escritos por un cliente en el servidor están dañados.

Me pregunto cuál es el mejor conjunto de parámetros NFS para aumentarfiabilidadde transferencia de datos en este entorno.

Por ahora las banderas de montaje son:

Flags:  rw,vers=3,rsize=262144,wsize=262144,hard,proto=tcp,timeo=600,retrans=2

El tamaño de MTU es 1500, el número de demonios NFS es 8.

¿Debo disminuir rsize y wsize por debajo de MTU y aumentar la cantidad de demonios NFS?

¿Hay algo más que se pueda mejorar?

Muchas gracias.

Respuesta1

Para el tamaño del clúster que se utiliza, puede ser una buena idea considerar pasar a un sistema de archivos paralelo comogluster. Alternativamente, si el clúster está configurado correctamente, cada nodo debe conocer a todos los demás nodos, ya sea a través de DNS o mediante búsquedas, /etc/hostsy debe tener claves ssh adecuadas para acceder a ellos sin contraseña.

Si este es el caso, cada nodo podría simplemente copiar los archivos al finalizar el cálculo/compresión, lo que anularía la necesidad de NFS. Si bien esta solución probablemente no brindará un rendimiento óptimo, dependiendo de la naturaleza de la virtualización de los nodos informáticos, la red y el almacenamiento, puede ser una buena opción.

¿Qué tipo de sistema de gestión/aprovisionamiento de clústeres está utilizando? Normalmente, durante la configuración de un nodo principal, también se configura el almacenamiento compartido apropiado para los nodos de computación. Usando una herramienta comoLobo de guerraoROCASpodría ayudar a garantizar que los nodos informáticos se aprovisionen correctamente y hay muchas guías y diseños de referencia para configurar clústeres con estas herramientas disponibles en línea.

información relacionada