Ich habe zwei identische Computer mit Mellanox-Karten, die über ein Kabel miteinander verbunden sind. Kein Switch. Verwende OpenSM.
Ich habe mehrere Tests ausgeführt, darunter Ping-Pong-Tests, IB-Ping usw. Sie scheinen alle zu funktionieren. Wenn ich diesen Test ausführe, erscheint jedoch scheinbar ein Fehler, den ich nicht verstehe.
Ich habe der Firewall gesagt
sudo iptables -I INPUT -p tcp -s 192.168.0.0/24 -j ACCEPT -m comment --comment "Allow Infiniband"
sudo iptables -I INPUT -p udp -s 192.168.0.0/24 -j ACCEPT -m comment --comment "Allow Infiniband"
Jede Hilfe beim Entschlüsseln und eine mögliche Lösung wären großartig.
[idf@node2 Downloads]$ sudo ib_write_bw
************************************
* Waiting for client to connect... *
************************************
---------------------------------------------------------------------------------------
RDMA_Write BW Test
Dual-port : OFF Device : mlx4_0
Number of qps : 1 Transport type : IB
Connection type : RC Using SRQ : OFF
CQ Moderation : 100
Mtu : 4096[B]
Link type : IB
Max inline data : 0[B]
rdma_cm QPs : OFF
Data ex. method : Ethernet
---------------------------------------------------------------------------------------
local address: LID 0x01 QPN 0x004a PSN 0xa79f2e RKey 0x50042a04 VAddr 0x007f1682804000
remote address: LID 0x02 QPN 0x004a PSN 0x5ef914 RKey 0x40042502 VAddr 0x007f94f9ce9000
---------------------------------------------------------------------------------------
#bytes #iterations BW peak[MB/sec] BW average[MB/sec] MsgRate[Mpps]
ethernet_read_keys: Couldn't read remote address
Unable to read to socket/rdam_cm
Failed to exchange data between server and clients
[idf@node2 Downloads]$
[idf@node1 python]$ sudo ib_write_bw 192.168.0.1
---------------------------------------------------------------------------------------
RDMA_Write BW Test
Dual-port : OFF Device : mlx4_0
Number of qps : 1 Transport type : IB
Connection type : RC Using SRQ : OFF
TX depth : 128
CQ Moderation : 100
Mtu : 4096[B]
Link type : IB
Max inline data : 0[B]
rdma_cm QPs : OFF
Data ex. method : Ethernet
---------------------------------------------------------------------------------------
local address: LID 0x02 QPN 0x004a PSN 0x5ef914 RKey 0x40042502 VAddr 0x007f94f9ce9000
remote address: LID 0x01 QPN 0x004a PSN 0xa79f2e RKey 0x50042a04 VAddr 0x007f1682804000
---------------------------------------------------------------------------------------
#bytes #iterations BW peak[MB/sec] BW average[MB/sec] MsgRate[Mpps]
Conflicting CPU frequency values detected: 1600.000000 != 1733.000000
Can't produce a report
[idf@node1 python]$
Antwort1
Es stellt sich heraus, dass dies schon einmal gesehen wurde. Mir gefällt die Antwort nicht, weil sie es unter den Teppich zu kehren scheint, aber es ist trotzdem eine Antwort:
http://linuxtoolkit.blogspot.com/2013/01/errors-when-running-doing-ib-testing.html
Antwort2
Dies liegt normalerweise daran, dass nicht alle erforderlichen Module im Kernel geladen sind. Sie werden standardmäßig nicht geladen. Ich bin mir nicht sicher, wie CentOS damit umgeht, aber in Ubuntu müssen Sie diese Module in /etc/modules ablegen, damit der Kernel sie lädt.
mlx4_ib
rdma_ucm
ib_umad
ib_uverbs
ib_ipoib
Ich gehe davon aus, dass ib_ipoib und mlx4_ib bereits geladen sind, da sonst die IP-Netzwerkverbindung über Infiniband nicht funktionieren würde.
Sie müssen auch libmlx4 installieren, falls Sie es noch nicht installiert haben.
Andernfalls versuchen Sie es mit diesem Link, der alle erforderlichen Pakete für Centos auflistet (Hinweis: libmthca ist für einen älteren Mellanox-Chipsatz [infinihost], Sie werden es in Ihrem Fall also nicht brauchen).