Mellanox 카드가 케이블을 통해 서로 연결된 두 대의 동일한 컴퓨터가 있습니다. 스위치가 없습니다. OpenSM을 사용합니다.
ping_pong 테스트, ibping 등을 포함한 여러 테스트를 실행했습니다. 모두 작동하는 것 같습니다. 그러나 이 테스트를 실행하면 이해할 수 없는 오류인 것처럼 보이는 내용이 다시 나타납니다.
방화벽에 말했어요
sudo iptables -I INPUT -p tcp -s -j ACCEPT -m comment --comment "Allow Infiniband"
sudo iptables -I INPUT -p udp -s -j ACCEPT -m comment --comment "Allow Infiniband"
해독하는 데 도움이 되고 가능한 해결책이 있으면 좋을 것입니다.
[idf@node2 Downloads]$ sudo ib_write_bw
* Waiting for client to connect... *
RDMA_Write BW Test
Dual-port : OFF Device : mlx4_0
Number of qps : 1 Transport type : IB
Connection type : RC Using SRQ : OFF
CQ Moderation : 100
Mtu : 4096[B]
Link type : IB
Max inline data : 0[B]
rdma_cm QPs : OFF
Data ex. method : Ethernet
local address: LID 0x01 QPN 0x004a PSN 0xa79f2e RKey 0x50042a04 VAddr 0x007f1682804000
remote address: LID 0x02 QPN 0x004a PSN 0x5ef914 RKey 0x40042502 VAddr 0x007f94f9ce9000
#bytes #iterations BW peak[MB/sec] BW average[MB/sec] MsgRate[Mpps]
ethernet_read_keys: Couldn't read remote address
Unable to read to socket/rdam_cm
Failed to exchange data between server and clients
[idf@node2 Downloads]$
[idf@node1 python]$ sudo ib_write_bw
RDMA_Write BW Test
Dual-port : OFF Device : mlx4_0
Number of qps : 1 Transport type : IB
Connection type : RC Using SRQ : OFF
TX depth : 128
CQ Moderation : 100
Mtu : 4096[B]
Link type : IB
Max inline data : 0[B]
rdma_cm QPs : OFF
Data ex. method : Ethernet
local address: LID 0x02 QPN 0x004a PSN 0x5ef914 RKey 0x40042502 VAddr 0x007f94f9ce9000
remote address: LID 0x01 QPN 0x004a PSN 0xa79f2e RKey 0x50042a04 VAddr 0x007f1682804000
#bytes #iterations BW peak[MB/sec] BW average[MB/sec] MsgRate[Mpps]
Conflicting CPU frequency values detected: 1600.000000 != 1733.000000
Can't produce a report
[idf@node1 python]$
이것은 이전에도 본 적이 있는 것으로 밝혀졌습니다. 나는 그 대답이 깔개 밑으로 쓸어버리는 것처럼 보이기 때문에 마음에 들지 않지만 그럼에도 불구하고 대답은 다음과 같습니다.
이는 일반적으로 커널에 필요한 모든 모듈이 로드되지 않았기 때문에 발생합니다. 기본적으로 로드되지 않습니다. centos가 이를 어떻게 처리하는지 잘 모르겠지만 Ubuntu에서는 이러한 모듈을 커널이 로드할 수 있도록 /etc/modules에 넣어야 합니다.
나는 ib_ipoib와 mlx4_ib가 이미 로드되어 있다고 가정합니다. 그렇지 않으면 무한대를 통한 IP 네트워킹이 작동하지 않을 것입니다.
libmlx4를 설치하지 않은 경우에도 설치해야 합니다.
실패하면 Centos에 필요한 모든 패키지가 나열된 이 링크를 사용해 보세요(참고: libmthca는 이전 mellanox 칩셋[infinihost]용이므로 귀하의 경우에는 필요하지 않습니다.