Infiniband RDMA가 작동하는지 확인

Infiniband RDMA가 작동하는지 확인

Mellanox 카드가 케이블을 통해 서로 연결된 두 대의 동일한 컴퓨터가 있습니다. 스위치가 없습니다. OpenSM을 사용합니다.

ping_pong 테스트, ibping 등을 포함한 여러 테스트를 실행했습니다. 모두 작동하는 것 같습니다. 그러나 이 테스트를 실행하면 이해할 수 없는 오류인 것처럼 보이는 내용이 다시 나타납니다.

방화벽에 말했어요

sudo iptables -I INPUT -p tcp -s 192.168.0.0/24  -j ACCEPT -m comment --comment "Allow Infiniband"

sudo iptables -I INPUT -p udp -s 192.168.0.0/24  -j ACCEPT -m comment --comment "Allow Infiniband"

해독하는 데 도움이 되고 가능한 해결책이 있으면 좋을 것입니다.

[idf@node2 Downloads]$ sudo ib_write_bw

************************************
* Waiting for client to connect... *
************************************
---------------------------------------------------------------------------------------
                    RDMA_Write BW Test
 Dual-port       : OFF      Device         : mlx4_0
 Number of qps   : 1        Transport type : IB
 Connection type : RC       Using SRQ      : OFF
 CQ Moderation   : 100
 Mtu             : 4096[B]
 Link type       : IB
 Max inline data : 0[B]
 rdma_cm QPs     : OFF
 Data ex. method : Ethernet
---------------------------------------------------------------------------------------
 local address: LID 0x01 QPN 0x004a PSN 0xa79f2e RKey 0x50042a04 VAddr 0x007f1682804000
 remote address: LID 0x02 QPN 0x004a PSN 0x5ef914 RKey 0x40042502 VAddr 0x007f94f9ce9000
---------------------------------------------------------------------------------------
 #bytes     #iterations    BW peak[MB/sec]    BW average[MB/sec]   MsgRate[Mpps]
ethernet_read_keys: Couldn't read remote address
 Unable to read to socket/rdam_cm
 Failed to exchange data between server and clients
[idf@node2 Downloads]$


[idf@node1 python]$ sudo ib_write_bw 192.168.0.1
---------------------------------------------------------------------------------------
                    RDMA_Write BW Test
 Dual-port       : OFF      Device         : mlx4_0
 Number of qps   : 1        Transport type : IB
 Connection type : RC       Using SRQ      : OFF
 TX depth        : 128
 CQ Moderation   : 100
 Mtu             : 4096[B]
 Link type       : IB
 Max inline data : 0[B]
 rdma_cm QPs     : OFF
 Data ex. method : Ethernet
---------------------------------------------------------------------------------------
 local address: LID 0x02 QPN 0x004a PSN 0x5ef914 RKey 0x40042502 VAddr 0x007f94f9ce9000
 remote address: LID 0x01 QPN 0x004a PSN 0xa79f2e RKey 0x50042a04 VAddr 0x007f1682804000
---------------------------------------------------------------------------------------
 #bytes     #iterations    BW peak[MB/sec]    BW average[MB/sec]   MsgRate[Mpps]
Conflicting CPU frequency values detected: 1600.000000 != 1733.000000
Can't produce a report
[idf@node1 python]$ 

답변1

이것은 이전에도 본 적이 있는 것으로 밝혀졌습니다. 나는 그 대답이 깔개 밑으로 쓸어버리는 것처럼 보이기 때문에 마음에 들지 않지만 그럼에도 불구하고 대답은 다음과 같습니다.

http://linuxtoolkit.blogspot.com/2013/01/errors-when-running-doing-ib-testing.html

답변2

이는 일반적으로 커널에 필요한 모든 모듈이 로드되지 않았기 때문에 발생합니다. 기본적으로 로드되지 않습니다. centos가 이를 어떻게 처리하는지 잘 모르겠지만 Ubuntu에서는 이러한 모듈을 커널이 로드할 수 있도록 /etc/modules에 넣어야 합니다.

mlx4_ib
rdma_ucm
ib_umad
ib_uverbs
ib_ipoib

나는 ib_ipoib와 mlx4_ib가 이미 로드되어 있다고 가정합니다. 그렇지 않으면 무한대를 통한 IP 네트워킹이 작동하지 않을 것입니다.

libmlx4를 설치하지 않은 경우에도 설치해야 합니다.

실패하면 Centos에 필요한 모든 패키지가 나열된 이 링크를 사용해 보세요(참고: libmthca는 이전 mellanox 칩셋[infinihost]용이므로 귀하의 경우에는 필요하지 않습니다.

https://sort.symantec.com/public/documents/sfha/6.1/linux/productguides/html/sfrac_install/apls05s02.htm

관련 정보