私は、MS HPC Pack 2012 R2 を使用して、Windows Server 2012 R2 で実行されている 13 台のコンピュータ クラスターで作業しています。ヘッドノードは正常に動作しています。サーバーは、標準アダプターの IPv4 経由で企業ネットワークに接続されています。ただし、ノードは InfiniBand 経由で相互に接続されています。
1 週間前、クラスターは同じホスト名で新しいドメインに移動されました。もちろん FQDN は変更され、12 個のコンピューティング ノードすべてで Network Direct が false に設定されていることを除けば、ほとんどの点で正常に動作しています。
移行後、ヘッド ノードにはすべての HPC コンポーネントが再インストールされました。ノードはそのまま残されました。これが Network Direct が有効になっている理由だと思ったので、ノードの 1 つに HPC を再インストールしてみました。それでも問題は解決しませんでした。
Windows ファイアウォールは、ヘッド ノードを含むすべてのノードのすべてのレベルでオフになっています。
で
- ヘッドノード上の ifiniBand アダプタ: Mellanox ConnectX-3 Pro IPoIB アダプタ
- ノード上の inifiniBand アダプター: HP 10Gb/40Gb 2 ポート 544+FLR-QSFP IPoIB アダプター
サーバーは、InfiniBand アダプタに設定された IP 上の PING 要求に応答します。
これについて何かアイデアをお持ちの方はいらっしゃいますか? よろしくお願いします。
答え1
Mellanox NIC を Etherent にフラッシュして、すべてが確実に動作するようにします。Windows での InfiBand は本当に面倒です。