El nodo maestro HPC no influye en la red infiniband en los nodos informáticos - Gestión de Slurm

El nodo maestro HPC no influye en la red infiniband en los nodos informáticos - Gestión de Slurm

Le escribo porque me enfrento a un problema que no puedo resolver al intentar configurar un clúster con un nodo maestro (o nodo frontend) como una máquina virtual que administra nodos con una red infiniband.

Utilizo slurm en estos nodos, el nodo frontal es el controlador de slurm.

Cada nodo de computación tiene una interfaz Ethernet e Infiniband, el nodo maestro (o nodo frontend) solo tiene una interfaz Ethernet.

Cuando lanzo un trabajo desde el nodo de VM frontal, el tráfico de red de los nodos de cómputo (entre ellos) pasa a través de la interfaz Ethernet, no he encontrado una manera de forzar el uso de la interfaz Infiniband.

¡Descubrí que iniciar trabajos desde un nodo informático en lugar de la interfaz de VM resuelve el problema! ¿Hay alguna manera de forzar el uso de la interfaz IB? Que me estoy perdiendo aqui ?

cualquier idea es muy apreciada.

Saludos cordiales, Simo.

Respuesta1

Soy nuevo en los trabajos de HPC, el inglés no es mi idioma nativo... pero supongo que sería hacerlo mediante rutas ponderadas:

Asigne en cada máquina la ruta para el segmento de red IB con un costo muy bajo para la interfaz, y todos los demás segmentos de red con precio alto para las interfaces IB (y viceversa: ethernet con un peso muy alto para el segmento IB) .

Tipo de acceso dividido mencionado aquí:

https://tldp.org/HOWTO/Adv-Routing-HOWTO/lartc.rpdb.multiple-links.html

El único inconveniente que veo es que el tráfico SSH podría enviarse a través de infiniband en lugar de Ethernet, pero debe haber una solución para eso.

información relacionada