Infiniband-Treiber: OFED oder Distro enthalten?

Infiniband-Treiber: OFED oder Distro enthalten?

Ich richte einen Linux-Cluster mit Infiniband-Netzwerk ein und bin ein ziemlicher Neuling in der Infiniband-Welt, jeder Rat ist mehr als willkommen!

Wir verwenden derzeit Mellanox OFED-Treiber, aber unsere Infiniband-Karten sind alt und werden von den neuesten MOFED-Treibern nicht erkannt. Daher frage ich mich, warum ich nicht die mitgelieferten Treiber (mit CentOS7) verwenden soll.

Welchen Unterschied macht es, ob ich das eine oder das andere verwende? Muss ich mit Leistungseinbußen rechnen?

Danke

Antwort1

Wenn Sie nicht die OFED-Distribution des Anbieters verwenden (in diesem Fall Mellanox OFED), müssen Sie nicht nur mit Leistungseinbußen, sondern auch mit fehlenden Funktionen und zahlreichen Stabilitätsproblemen rechnen.

Infiniband ist nicht so absolut zuverlässig wie Ethernet. Das Hauptziel von Infiniband besteht darin, eine Struktur mit geringer Latenz bereitzustellen und nicht nur ein Netzwerk mit hohem Durchsatz, wie alle normalerweise denken.

Der Inbox-Treiber (so nennt Mellanox die mit der Distribution mitgelieferte OFED-Distribution) ist bestenfalls unzuverlässig, und wenn Sie Karten verwenden, die älter als Connect-X4 sind, werden Sie Probleme haben, wenn Sie IPoIB ausführen, falls dies erforderlich ist. Wenn Sie ihn einfach aktiviert lassen, führt dies irgendwann zu Kernel-Panics. Die Leistung ist einfach schlecht und das Netzwerk ist unzuverlässig.

Es gibt einige Alternativen, zunächst einmal gibt es MLNX OFED 4.9, eine LTS-Version, die ältere Karten wie die Connect-X3 unterstützt. Ich würde dabei bleiben, da es unterstützt wird und noch lange unterstützt werden wird.

Der Unterschied liegt in der Unterstützung folgender Hardware und Technologie:

  • ConnectX-3 Pro
  • ConnectX-3
  • Connect-IB
  • RDMA-Bibliothek für experimentelle Verben (mlnx_lib)

Laden Sie es hier herunter:https://www.mellanox.com/products/infiniband-drivers/linux/mlnx_ofed

Wenn die LTS-Version von Mellanox OFED nicht zu Ihnen passt, besteht eine weitere Lösung darin, auf Oracle Linux umzusteigen, UEK (Unbreakable Enterprise Kernel) zu übernehmen und dessen RDMA-Distribution zu nutzen. Oracle testet diese OFED-Version zumindest, ihr Exadata-Produkt verwendet sie. Dokumentation dazu ist hier verfügbar:https://docs.oracle.com/en/operating-systems/uek/6/relnotes6.2/ol_instav.html#uek6_install_rdma

Antwort2

Die „Inbox“-Treiber haben den Linux Q&A-Prozess und den Distro Q&A-Prozess durchlaufen. Die MOFED-Treiber nicht.

Es gibt schwerwiegende Fehler in MOFED, die verhindern, dass unser Code darunter ausgeführt wird, und die Unterstützung für unsere alte Hardware wurde in MOFED deaktiviert. Aber es funktioniert mit Inbox/Distro-Treibern.

MOFED ist eine experimentelle Software. Könnte nützlich sein, wenn das System gelegentlich abstürzt und Sie hochmoderne Funktionen nutzen möchten, die noch nicht ausgereift sind.

verwandte Informationen