HPC マスター ノードはコンピューティング ノードに InfiniBand ネットワークの影響を与えません - Slurm 管理

HPC マスター ノードはコンピューティング ノードに InfiniBand ネットワークの影響を与えません - Slurm 管理

私がこの記事を書いているのは、マスター ノード (またはフロントエンド ノード) を、Infiniband ネットワークでノードを管理する仮想マシンとしてクラスターを構成しようとして、解決できない問題に直面しているためです。

私はこのノードで slurm を使用します。フロントエンド ノードは slurm コントローラーです。

各コンピューティング ノードにはイーサネットおよびインフィニバンド インターフェイスがあり、マスター ノード (またはフロントエンド ノード) にはイーサネット インターフェイスのみがあります。

フロントエンド VM ノードからジョブを起動すると、コンピューティング ノード間のネットワーク トラフィックはイーサネット インターフェイスを通過しますが、Infiniband インターフェイスの使用を強制する方法が見つかりません。

VM フロントエンドではなくコンピューティング ノードからジョブを起動すると問題が解決することがわかりました。IB インターフェイスの使用を強制する方法はありますか? ここで何が欠けているのでしょうか?

どのようなアイデアでも大歓迎です。

よろしくお願いいたします、シモ

答え1

私は HPC の作業に不慣れで、英語は母国語ではありませんが、重み付けされたルートを使用して実行することを推測します。

各マシンで、インターフェイスのコストが非常に低い IB ネット セグメントのルートと、IB インターフェイスのコストが高い他のすべてのネット セグメントのルートを割り当てます (逆の場合も同様、IB セグメントの重みが非常に高いイーサネット)。

ここで言及されている分割アクセスの種類:

https://tldp.org/HOWTO/Adv-Routing-HOWTO/lartc.rpdb.multiple-links.html

私が見つけた唯一の欠点は、SSH トラフィックがイーサネットではなく Infiniband 経由で送信される可能性があることですが、これには回避策があるはずです。

関連情報