HPC 主節點對運算節點沒有 infiniband 網路影響 - Slurm 管理

HPC 主節點對運算節點沒有 infiniband 網路影響 - Slurm 管理

我寫這篇文章是因為我遇到了一個無法解決的問題,嘗試將具有主節點(或前端節點)的叢集配置為具有 infiniband 網路的虛擬機器管理節點。

我在這個節點上使用 slurm,前端節點是 slurm 控制器。

每個運算節點都有乙太網路和infiniband接口,主節點(或前端節點)只有乙太網路介面。

當我從前端VM節點啟動作業時,計算節點網路流量(它們之間的)將通過乙太網路接口,我還沒有找到強制使用Infiniband接口的方法。

我發現從計算節點而不是虛擬機器前端啟動作業可以解決問題!有沒有辦法強制使用IB介面?我在這裡缺少什麼?

任何想法都非常感激。

最好的問候,西莫

答案1

我是 HPC 工作的新手,英語不是我的母語......但我的猜測是透過加權路線來完成:

在每台機器中為 IB 網段分配介面成本非常低的路由,並為 IB 介面分配高價格的所有其他網段(反之亦然:IB 網段權重非常高的乙太網路) 。

這裡提到的分割存取類型:

https://tldp.org/HOWTO/Adv-Routing-HOWTO/lartc.rpdb.multiple-links.html

我看到的唯一缺點是 SSH 流量可能透過 infiniband 而不是乙太網路發送,但必須有一個解決方法。

相關內容