我正在設定一個帶有 infiniband 網路的 Linux 集群,而且我是 infiniband 世界的新手,非常歡迎任何建議!
我們目前使用 Mellanox OFED 驅動程序,但我們的 infiniband 卡很舊,最新的 MOFED 驅動程式無法識別。所以我想知道為什麼不使用發行版附帶的驅動程式(運行 CentOS7)。
使用其中一種或另一種會有什麼區別?我應該預期性能會下降嗎?
謝謝
答案1
如果不使用供應商 OFED 發行版(在本例中為 Mellanox OFED),您不僅會受到性能損失,還會缺乏功能和許多穩定性問題。
Infiniband不像乙太網路那樣堅如磐石,Infiniband的主要目標是提供低延遲結構,而不僅僅是每個人通常認為的高吞吐量網路。
收件匣驅動程式(Mellanox 就是這樣稱呼發行版中附帶的OFED 發行版的)充其量是不可靠的,如果您運行的卡早於Connect-X4,則在需要時運行IPoIB 時會遇到麻煩,只需保持啟用狀態即可最終會導致核心恐慌。效能很差而且網路不可靠。
有一些替代方案,首先是 MLNX OFED 4.9,它是一個支援 Connect-X3 等舊卡的 LTS 版本。我會堅持使用它,因為它受到支持並且將長期受到支持。
差別在於對以下硬體和技術的支援:
- ConnectX-3 專業版
- 連接X-3
- 連接-IB
- RDMA 實驗動詞庫 (mlnx_lib)
從這裡下載:https://www.mellanox.com/products/infiniband-drivers/linux/mlnx_ofed
如果 Mellanox OFED 的 LTS 版本不適合您,另一個解決方案是遷移到 Oracle Linux,採用 UEK(堅不可摧的企業核心)並使用其 RDMA 發行版。至少 Oracle 測試了這個 OFED 版本,他們的 Exadata 產品使用它。這裡有可用的文件:https://docs.oracle.com/en/operating-systems/uek/6/relnotes6.2/ol_instav.html#uek6_install_rdma
答案2
「收件匣」驅動程式已完成 Linux 問答流程和發行版問答。 MOFED 驅動程式還沒有。
MOFED 中存在嚴重的錯誤,導致我們的程式碼無法在其下運行,並且 MOFED 中已停用對舊硬體的支援。但它適用於收件匣/發行版驅動程式。
MOFED 是實驗性軟體。如果系統偶爾會崩潰並且您想使用尚未成熟的尖端功能,那麼這可能很有用。