Estou configurando um cluster Linux com rede infiniband e sou um novato no mundo infiniband, qualquer conselho é mais que bem-vindo!
Atualmente estamos usando drivers Mellanox OFED, mas nossas placas infiniband são antigas e não são reconhecidas pelos drivers MOFED mais recentes. Então, estou me perguntando por que não usar drivers fornecidos pela distribuição (executando o CentOS7).
Que diferença isso fará para usar um ou outro? Devo esperar alguma diminuição de desempenho?
THX
Responder1
Ao não usar a distribuição OFED do fornecedor, neste caso Mellanox OFED, você deve esperar não apenas uma penalidade de desempenho, mas também falta de recursos e muitos problemas de estabilidade.
O Infiniband não é tão sólido quanto a Ethernet, o objetivo principal do Infiniband é fornecer uma estrutura de baixa latência, não apenas uma rede de alto rendimento como todos costumam pensar.
O driver da caixa de entrada (é assim que Mellanox chama a distribuição OFED fornecida na distribuição) não é confiável, na melhor das hipóteses, e se você estiver executando placas anteriores ao Connect-X4, você terá dificuldades ao executar o IPoIB, se necessário, apenas mantendo-o ativado eventualmente levará ao kernel panics. O desempenho é ruim e a rede não é confiável.
Existem algumas alternativas, em primeiro lugar existe o MLNX OFED 4.9 que é uma versão LTS que suporta placas mais antigas como o Connect-X3. Eu continuaria com ele, pois é compatível e será suportado por muito tempo.
A diferença é o suporte para os seguintes hardwares e tecnologias:
- ConnectX-3 Pro
- ConnectX-3
- Conectar-IB
- Biblioteca de verbos experimentais RDMA (mlnx_lib)
Baixe aqui:https://www.mellanox.com/products/infiniband-drivers/linux/mlnx_ofed
Se a versão LTS do Mellanox OFED não combina com você, outra solução está migrando para Oracle Linux, adotando UEK (Unbreakable Enterprise Kernel) e consumindo sua distribuição RDMA. Pelo menos a Oracle testa esta versão do OFED, seu produto Exadata a utiliza. Há documentação disponível aqui:https://docs.oracle.com/en/operating-systems/uek/6/relnotes6.2/ol_instav.html#uek6_install_rdma
Responder2
Os drivers da "caixa de entrada" passaram pelo processo de perguntas e respostas do Linux e pelas perguntas e respostas da distribuição. Os drivers MOFED não.
Existem bugs graves no MOFED que impedem que nosso código seja executado nele e o suporte para nosso hardware antigo foi desabilitado no MOFED. Mas funciona com drivers de caixa de entrada/Distro.
MOFED é um software experimental. Pode ser útil se o sistema travar de vez em quando e se você quiser usar recursos de ponta que ainda não amadureceram.