Nó mestre HPC sem influência de rede infiniband em nós de computação - gerenciamento Slurm

Nó mestre HPC sem influência de rede infiniband em nós de computação - gerenciamento Slurm

Estou escrevendo porque estou enfrentando um problema que não consigo resolver ao tentar configurar um cluster com um nó mestre (ou nó Frontend) como uma máquina virtual gerenciando nós com rede infiniband.

Eu uso o slurm nesses nós, o nó frontend é o controlador do slurm.

Cada nó de computação possui interface Ethernet e infiniband, o nó mestre (ou nó frontend) possui apenas interface Ethernet.

Quando executo um trabalho a partir do nó VM front-end, o tráfego de rede dos nós de computação (entre eles) passa pela interface Ethernet, não encontrei uma maneira de forçar o uso da interface Infiniband.

Descobri que iniciar jobs a partir de um nó de computação em vez do VM Frontend resolve o problema! Existe uma maneira de forçar o uso da interface IB? O que estou perdendo aqui ?

qualquer ideia é muito apreciada.

Atenciosamente, Simo

Responder1

Sou novo no trabalho de HPC, inglês não é minha língua nativa... mas meu palpite seria fazê-lo por meio de rotas ponderadas:

Atribua em cada máquina a rota para o segmento de rede IB com custo muito baixo para a interface, e todos os demais segmentos de rede com preço alto para as interfaces IB (e vice-versa: ethernet com peso muito alto para o segmento IB) .

Tipo de acesso dividido mencionado aqui:

https://tldp.org/HOWTO/Adv-Routing-HOWTO/lartc.rpdb.multiple-links.html

A única desvantagem que vejo é que o tráfego SSH pode ser enviado via infiniband em vez de Ethernet, mas deve haver uma solução alternativa para isso.

informação relacionada