加入新網域後,Micosoft HPC Pack 2012 R2 無法使用 Network Direct 執行

加入新網域後,Micosoft HPC Pack 2012 R2 無法使用 Network Direct 執行

我正在處理一個由 13 台電腦組成的集群,在 Windows Server 2012 R2 上運行,使用 MS HPC Pack 2012 R2。頭節點工作正常。伺服器透過標準適配器上的 IPv4 連接到公司網路。然而,節點也透過 infiniBand 相互連接。

一週前,叢集被移動到一個具有相同主機名稱的新網域。 FQDN 當然發生了變化,除了 Network Direct 現在在所有 12 個計算節點上設定為 false 之外,它在大多數方面都表現正確。

遷移後,頭節點重新安裝了所有 HPC 元件。節點保持不變。由於我認為這是啟用 Network Direct 的原因,因此我也嘗試在其中一個節點上重新安裝 HPC。那並沒有解決問題。

Windows 防火牆在所有節點(包括頭節點)的所有層級上均處於關閉狀態。

  • 頭節點上的 ifiniBand 適配器:Mellanox ConnectX-3 Pro IPoIB 適配器
  • 節點上的 inifiniBand 適配器: HP 10Gb/40Gb 2 連接埠 544+FLR-QSFP IPoIB 適配器

伺服器回應 infiniBand 適配器設定的 IP 上的 PING 請求。

有人對此有什麼想法嗎?提前致謝。

答案1

將 Mellanox NIC 快閃記憶體到乙太網路中,讓一切可靠運作。 InfiBand 與 Windows 真是太棒了!

http://www.mellanox.com/page/firmware_table_ConnectX3IB

相關內容