新しいドメインに参加した後、Micosoft HPC Pack 2012 R2 が Network Direct で実行されない

新しいドメインに参加した後、Micosoft HPC Pack 2012 R2 が Network Direct で実行されない

私は、MS HPC Pack 2012 R2 を使用して、Windows Server 2012 R2 で実行されている 13 台のコンピュータ クラスターで作業しています。ヘッドノードは正常に動作しています。サーバーは、標準アダプターの IPv4 経由で企業ネットワークに接続されています。ただし、ノードは InfiniBand 経由で相互に接続されています。

1 週間前、クラスターは同じホスト名で新しいドメインに移動されました。もちろん FQDN は変更され、12 個のコンピューティング ノードすべてで Network Direct が false に設定されていることを除けば、ほとんどの点で正常に動作しています。

移行後、ヘッド ノードにはすべての HPC コンポーネントが再インストールされました。ノードはそのまま残されました。これが Network Direct が有効になっている理由だと思ったので、ノードの 1 つに HPC を再インストールしてみました。それでも問題は解決しませんでした。

Windows ファイアウォールは、ヘッド ノードを含むすべてのノードのすべてのレベルでオフになっています。

  • ヘッドノード上の ifiniBand アダプタ: Mellanox ConnectX-3 Pro IPoIB アダプタ
  • ノード上の inifiniBand アダプター: HP 10Gb/40Gb 2 ポート 544+FLR-QSFP IPoIB アダプター

サーバーは、InfiniBand アダプタに設定された IP 上の PING 要求に応答します。

これについて何かアイデアをお持ちの方はいらっしゃいますか? よろしくお願いします。

答え1

Mellanox NIC を Etherent にフラッシュして、すべてが確実に動作するようにします。Windows での InfiBand は本当に面倒です。

http://www.mellanox.com/page/firmware_table_ConnectX3IB

関連情報