私は、InfiniBand ネットワークを使用して Linux クラスターをセットアップしています。InfiniBand の世界では初心者なので、アドバイスがあれば大歓迎です。
現在、Mellanox OFED ドライバーを使用していますが、InfiniBand カードは古く、最新の MOFED ドライバーでは認識されません。そのため、ディストリビューションに同梱されているドライバー (CentOS7 を実行) を使用しないのはなぜか疑問に思っています。
どちらを使用したら違いが出るでしょうか? パフォーマンスの低下は予想されますか?
THX
答え1
ベンダーの OFED ディストリビューション (この場合は Mellanox OFED) を使用しない場合、パフォーマンスの低下だけでなく、機能の不足や多くの安定性の問題も予想されます。
Infiniband は Ethernet のように堅牢ではありません。Infiniband の主な目的は、誰もが通常考えるような高スループットのネットワークだけでなく、低レイテンシのファブリックを提供することです。
インボックス ドライバー (Mellanox ではディストリビューションに同梱されている OFED ディストリビューションをこのように呼んでいます) は、信頼性の低いもので、Connect-X4 より古いカードを実行している場合は、必要に応じて IPoIB を実行するときに問題が発生します。IPoIB を有効にしたままにしておくと、最終的にはカーネル パニックが発生します。パフォーマンスは悪く、ネットワークは信頼性がありません。
代替案はいくつかありますが、まずは MLNX OFED 4.9 です。これは Connect-X3 などの古いカードをサポートする LTS リリースです。これはサポートされており、今後も長期間サポートされる予定なので、私はこれを使い続けるつもりです。
違いは、次のハードウェアとテクノロジのサポートです。
- コネクトX-3プロ
- コネクトX-3
- コネクトIB
- RDMA 実験的動詞ライブラリ (mlnx_lib)
ここからダウンロードしてください:https://www.mellanox.com/products/infiniband-drivers/linux/mlnx_ofed
Mellanox OFED の LTS バージョンが適さない場合、別の解決策として、Oracle Linux に移行し、UEK (Unbreakable Enterprise Kernel) を採用して、その RDMA ディストリビューションを利用する方法があります。少なくとも Oracle はこの OFED リリースをテストしており、同社の Exadata 製品ではこれを使用しています。ドキュメントはここにあります:詳しくは、 uek6_install_rdma を参照してください。
答え2
「inbox」ドライバーは Linux Q&A プロセスとディストリビューション Q&A を通過しています。MOFED ドライバーは通過していません。
MOFED には重大なバグがあり、コードの実行が妨げられ、古いハードウェアのサポートは MOFED で無効になっています。ただし、inbox/Distro ドライバーでは動作します。
MOFED は実験的なソフトウェアです。システムが時々クラッシュする場合や、まだ成熟していない最先端の機能を使用したい場合に役立ちます。