Drivers Infiniband: OFED ou distribuição incluída?

Drivers Infiniband: OFED ou distribuição incluída?

Estou configurando um cluster Linux com rede infiniband e sou um novato no mundo infiniband, qualquer conselho é mais que bem-vindo!

Atualmente estamos usando drivers Mellanox OFED, mas nossas placas infiniband são antigas e não são reconhecidas pelos drivers MOFED mais recentes. Então, estou me perguntando por que não usar drivers fornecidos pela distribuição (executando o CentOS7).

Que diferença isso fará para usar um ou outro? Devo esperar alguma diminuição de desempenho?

THX

Responder1

Ao não usar a distribuição OFED do fornecedor, neste caso Mellanox OFED, você deve esperar não apenas uma penalidade de desempenho, mas também falta de recursos e muitos problemas de estabilidade.

O Infiniband não é tão sólido quanto a Ethernet, o objetivo principal do Infiniband é fornecer uma estrutura de baixa latência, não apenas uma rede de alto rendimento como todos costumam pensar.

O driver da caixa de entrada (é assim que Mellanox chama a distribuição OFED fornecida na distribuição) não é confiável, na melhor das hipóteses, e se você estiver executando placas anteriores ao Connect-X4, você terá dificuldades ao executar o IPoIB, se necessário, apenas mantendo-o ativado eventualmente levará ao kernel panics. O desempenho é ruim e a rede não é confiável.

Existem algumas alternativas, em primeiro lugar existe o MLNX OFED 4.9 que é uma versão LTS que suporta placas mais antigas como o Connect-X3. Eu continuaria com ele, pois é compatível e será suportado por muito tempo.

A diferença é o suporte para os seguintes hardwares e tecnologias:

  • ConnectX-3 Pro
  • ConnectX-3
  • Conectar-IB
  • Biblioteca de verbos experimentais RDMA (mlnx_lib)

Baixe aqui:https://www.mellanox.com/products/infiniband-drivers/linux/mlnx_ofed

Se a versão LTS do Mellanox OFED não combina com você, outra solução está migrando para Oracle Linux, adotando UEK (Unbreakable Enterprise Kernel) e consumindo sua distribuição RDMA. Pelo menos a Oracle testa esta versão do OFED, seu produto Exadata a utiliza. Há documentação disponível aqui:https://docs.oracle.com/en/operating-systems/uek/6/relnotes6.2/ol_instav.html#uek6_install_rdma

Responder2

Os drivers da "caixa de entrada" passaram pelo processo de perguntas e respostas do Linux e pelas perguntas e respostas da distribuição. Os drivers MOFED não.

Existem bugs graves no MOFED que impedem que nosso código seja executado nele e o suporte para nosso hardware antigo foi desabilitado no MOFED. Mas funciona com drivers de caixa de entrada/Distro.

MOFED é um software experimental. Pode ser útil se o sistema travar de vez em quando e se você quiser usar recursos de ponta que ainda não amadureceram.

informação relacionada