El sistema de archivos de red falla durante altas velocidades de E/S

Question

Algunas sugerencias aprendidas a lo largo de los años.

Minimice la carga en el servidor NFS:

configurar las opciones de exportación NFS:async,insecure,no_subtree_check

establecer opciones de montaje NFSsoft,noatime,nodiratime,nolock,vers=3

también configurado: noatime,nodiratimeen montajes de datos/tmp/scratch. Asegúrese de que el cifrado NFS esté desactivado para reducir la carga. Detenga el proceso de bloqueo de NFS.

Intente habilitar las tramas JUMBO para la red en todos los hosts (si el equipo de red las admite): configure MTU en 9k aproximadamente.
Asegúrese de que se utilice el almacenamiento raid10 (evite raid5/6 a TODO costo) para IO de escritura aleatoria. ¿Algún SSD?
Maximice la cantidad de identificadores de FS abiertos (el valor predeterminado es 2K en algunos sistemas), configúrelo en 1M aproximadamente.
¿Alguna posibilidad de copiar la base de datos de mapeo con datos de entrada al almacenamiento del nodo temporal local y luego combinar/ordenar los archivos sam resultantes como un paso separado?
Aumente el tamaño del fragmento procesado (para que se procese durante al menos 30 minutos o más).
Si es posibledividir los trabajos en el nivel más alto posible(intente mapear/clasificar 10 genomas/muestras separadas en 10 nodos diferentes en paralelo, en lugar de intentar mapear cada genoma en serie usando 10 hosts). Intente establecer puntos de control una vez que todos los procesos hayan finalizado.
Modifique la fuente de un programa para que lea datos en fragmentos más grandes, como 1 M en lugar de 4k.
Tenga en cuenta la disputa de interconexión CPU/RAM (especialmente en sistemas AMD de 4 a 8 sockets), a veces ejecutar de 12 a 24 subprocesos en una caja de 48 núcleos es mucho más rápido que 48 subprocesos. Pruebe diferentes niveles de utilización. Asegúrese de que NUMA esté encendido y configurado para sistemas con múltiples CPU. Vuelva a compilar con NUMA habilitado.

PD: Gestionar un clúster eficiente es similar a planificar/administrar una obra de construcción con más de 1.000 trabajadores...

Answer 1