Infiniband 驗證 RDMA 是否正常運作

Infiniband 驗證 RDMA 是否正常運作

我有兩台相同的計算機,其帶有 Mellanox 卡,透過電纜相互連接。沒有開關。使用opensm。

我已經運行了幾個測試,包括 ping_pong 測試、ibping 等。但是,當我運行此測試時,它返回了似乎是一個錯誤,我不明白。

我確實告訴了防火牆

sudo iptables -I INPUT -p tcp -s 192.168.0.0/24  -j ACCEPT -m comment --comment "Allow Infiniband"

sudo iptables -I INPUT -p udp -s 192.168.0.0/24  -j ACCEPT -m comment --comment "Allow Infiniband"

任何幫助破解和可能的解決方案都會很棒。

[idf@node2 Downloads]$ sudo ib_write_bw

************************************
* Waiting for client to connect... *
************************************
---------------------------------------------------------------------------------------
                    RDMA_Write BW Test
 Dual-port       : OFF      Device         : mlx4_0
 Number of qps   : 1        Transport type : IB
 Connection type : RC       Using SRQ      : OFF
 CQ Moderation   : 100
 Mtu             : 4096[B]
 Link type       : IB
 Max inline data : 0[B]
 rdma_cm QPs     : OFF
 Data ex. method : Ethernet
---------------------------------------------------------------------------------------
 local address: LID 0x01 QPN 0x004a PSN 0xa79f2e RKey 0x50042a04 VAddr 0x007f1682804000
 remote address: LID 0x02 QPN 0x004a PSN 0x5ef914 RKey 0x40042502 VAddr 0x007f94f9ce9000
---------------------------------------------------------------------------------------
 #bytes     #iterations    BW peak[MB/sec]    BW average[MB/sec]   MsgRate[Mpps]
ethernet_read_keys: Couldn't read remote address
 Unable to read to socket/rdam_cm
 Failed to exchange data between server and clients
[idf@node2 Downloads]$


[idf@node1 python]$ sudo ib_write_bw 192.168.0.1
---------------------------------------------------------------------------------------
                    RDMA_Write BW Test
 Dual-port       : OFF      Device         : mlx4_0
 Number of qps   : 1        Transport type : IB
 Connection type : RC       Using SRQ      : OFF
 TX depth        : 128
 CQ Moderation   : 100
 Mtu             : 4096[B]
 Link type       : IB
 Max inline data : 0[B]
 rdma_cm QPs     : OFF
 Data ex. method : Ethernet
---------------------------------------------------------------------------------------
 local address: LID 0x02 QPN 0x004a PSN 0x5ef914 RKey 0x40042502 VAddr 0x007f94f9ce9000
 remote address: LID 0x01 QPN 0x004a PSN 0xa79f2e RKey 0x50042a04 VAddr 0x007f1682804000
---------------------------------------------------------------------------------------
 #bytes     #iterations    BW peak[MB/sec]    BW average[MB/sec]   MsgRate[Mpps]
Conflicting CPU frequency values detected: 1600.000000 != 1733.000000
Can't produce a report
[idf@node1 python]$ 

答案1

原來這以前見過。我不喜歡這個答案,因為它似乎把它隱藏起來,但它仍然是一個答案:

http://linuxtoolkit.blogspot.com/2013/01/errors-when-running-doing-ib-testing.html

答案2

這通常是由於未在核心中載入所有必需的模組而導致的。預設情況下它們不加載。不確定 centos 如何處理它,但在 Ubuntu 中你需要將這些模組放在 /etc/modules 中,以便核心載入它們。

mlx4_ib
rdma_ucm
ib_umad
ib_uverbs
ib_ipoib

我假設 ib_ipoib 和 mlx4_ib 已經加載,否則你將無法透過 infiniband 工作獲得 ip 網路。

如果您尚未安裝 libmlx4,則還需要安裝它。

如果失敗,請嘗試此鏈接,其中列出了 Centos 所需的所有軟體包(注意:libmthca 適用於較舊的 Mellanox 晶片組 [infinihost],因此在您的情況下不需要它。

https://sort.symantec.com/public/documents/sfha/6.1/linux/productguides/html/sfrac_install/apls05s02.htm

相關內容