Infiniband: Überprüfen, ob RDMA funktioniert

Infiniband: Überprüfen, ob RDMA funktioniert

Ich habe zwei identische Computer mit Mellanox-Karten, die über ein Kabel miteinander verbunden sind. Kein Switch. Verwende OpenSM.

Ich habe mehrere Tests ausgeführt, darunter Ping-Pong-Tests, IB-Ping usw. Sie scheinen alle zu funktionieren. Wenn ich diesen Test ausführe, erscheint jedoch scheinbar ein Fehler, den ich nicht verstehe.

Ich habe der Firewall gesagt

sudo iptables -I INPUT -p tcp -s 192.168.0.0/24  -j ACCEPT -m comment --comment "Allow Infiniband"

sudo iptables -I INPUT -p udp -s 192.168.0.0/24  -j ACCEPT -m comment --comment "Allow Infiniband"

Jede Hilfe beim Entschlüsseln und eine mögliche Lösung wären großartig.

[idf@node2 Downloads]$ sudo ib_write_bw

************************************
* Waiting for client to connect... *
************************************
---------------------------------------------------------------------------------------
                    RDMA_Write BW Test
 Dual-port       : OFF      Device         : mlx4_0
 Number of qps   : 1        Transport type : IB
 Connection type : RC       Using SRQ      : OFF
 CQ Moderation   : 100
 Mtu             : 4096[B]
 Link type       : IB
 Max inline data : 0[B]
 rdma_cm QPs     : OFF
 Data ex. method : Ethernet
---------------------------------------------------------------------------------------
 local address: LID 0x01 QPN 0x004a PSN 0xa79f2e RKey 0x50042a04 VAddr 0x007f1682804000
 remote address: LID 0x02 QPN 0x004a PSN 0x5ef914 RKey 0x40042502 VAddr 0x007f94f9ce9000
---------------------------------------------------------------------------------------
 #bytes     #iterations    BW peak[MB/sec]    BW average[MB/sec]   MsgRate[Mpps]
ethernet_read_keys: Couldn't read remote address
 Unable to read to socket/rdam_cm
 Failed to exchange data between server and clients
[idf@node2 Downloads]$


[idf@node1 python]$ sudo ib_write_bw 192.168.0.1
---------------------------------------------------------------------------------------
                    RDMA_Write BW Test
 Dual-port       : OFF      Device         : mlx4_0
 Number of qps   : 1        Transport type : IB
 Connection type : RC       Using SRQ      : OFF
 TX depth        : 128
 CQ Moderation   : 100
 Mtu             : 4096[B]
 Link type       : IB
 Max inline data : 0[B]
 rdma_cm QPs     : OFF
 Data ex. method : Ethernet
---------------------------------------------------------------------------------------
 local address: LID 0x02 QPN 0x004a PSN 0x5ef914 RKey 0x40042502 VAddr 0x007f94f9ce9000
 remote address: LID 0x01 QPN 0x004a PSN 0xa79f2e RKey 0x50042a04 VAddr 0x007f1682804000
---------------------------------------------------------------------------------------
 #bytes     #iterations    BW peak[MB/sec]    BW average[MB/sec]   MsgRate[Mpps]
Conflicting CPU frequency values detected: 1600.000000 != 1733.000000
Can't produce a report
[idf@node1 python]$ 

Antwort1

Es stellt sich heraus, dass dies schon einmal gesehen wurde. Mir gefällt die Antwort nicht, weil sie es unter den Teppich zu kehren scheint, aber es ist trotzdem eine Antwort:

http://linuxtoolkit.blogspot.com/2013/01/errors-when-running-doing-ib-testing.html

Antwort2

Dies liegt normalerweise daran, dass nicht alle erforderlichen Module im Kernel geladen sind. Sie werden standardmäßig nicht geladen. Ich bin mir nicht sicher, wie CentOS damit umgeht, aber in Ubuntu müssen Sie diese Module in /etc/modules ablegen, damit der Kernel sie lädt.

mlx4_ib
rdma_ucm
ib_umad
ib_uverbs
ib_ipoib

Ich gehe davon aus, dass ib_ipoib und mlx4_ib bereits geladen sind, da sonst die IP-Netzwerkverbindung über Infiniband nicht funktionieren würde.

Sie müssen auch libmlx4 installieren, falls Sie es noch nicht installiert haben.

Andernfalls versuchen Sie es mit diesem Link, der alle erforderlichen Pakete für Centos auflistet (Hinweis: libmthca ist für einen älteren Mellanox-Chipsatz [infinihost], Sie werden es in Ihrem Fall also nicht brauchen).

https://sort.symantec.com/public/documents/sfha/6.1/linux/productguides/html/sfrac_install/apls05s02.htm

verwandte Informationen