Estoy configurando un clúster de Linux con una red infiniband y soy bastante nuevo en el mundo infiniband, ¡cualquier consejo es más que bienvenido!
Actualmente utilizamos controladores OFED de Mellanox, pero nuestras tarjetas infiniband son antiguas y no las reconocen los controladores MOFED más recientes. Entonces me pregunto por qué no utilizar los controladores enviados por la distribución (que ejecutan CentOS7).
¿Qué diferencia habrá entre usar uno u otro? ¿Debo esperar alguna disminución en el rendimiento?
Gracias
Respuesta1
Al no utilizar la distribución OFED del proveedor, en este caso Mellanox OFED, debería esperar no sólo una pérdida de rendimiento sino también falta de funciones y muchos problemas de estabilidad.
Infiniband no es tan sólido como lo es Ethernet; el objetivo principal de Infiniband es proporcionar un tejido de baja latencia, no sólo una red de alto rendimiento como todo el mundo suele pensar.
El controlador de la bandeja de entrada (así es como Mellanox llama a la distribución OFED incluida en la distribución) no es confiable en el mejor de los casos, y si está ejecutando tarjetas anteriores a Connect-X4, lo pasará mal al ejecutar IPoIB si es necesario, simplemente manteniéndolo habilitado. eventualmente conducirá a pánico en el kernel. El rendimiento es simplemente malo y la red no es confiable.
Existen algunas alternativas, en primer lugar está MLNX OFED 4.9, que es una versión LTS que admite tarjetas más antiguas como Connect-X3. Me quedaría con él ya que es compatible y lo será durante mucho tiempo.
La diferencia es la compatibilidad con el siguiente hardware y tecnología:
- ConectaX-3 Pro
- ConectarX-3
- Conectar-IB
- Biblioteca de verbos experimentales RDMA (mlnx_lib)
Descárgalo desde aquí:https://www.mellanox.com/products/infiniband-drivers/linux/mlnx_ofed
Si la versión LTS de Mellanox OFED no le conviene, otra solución es migrar a Oracle Linux, adoptar UEK (Unbreakable Enterprise Kernel) y consumir su distribución RDMA. Al menos Oracle prueba esta versión OFED, su producto Exadata la usa. Hay documentación disponible aquí:https://docs.oracle.com/en/operating-systems/uek/6/relnotes6.2/ol_instav.html#uek6_install_rdma
Respuesta2
Los controladores de la "bandeja de entrada" han pasado por el proceso de preguntas y respuestas de Linux y por las preguntas y respuestas de la distribución. Los conductores del MOFED no.
Hay errores graves en MOFED que impiden que nuestro código se ejecute en él y la compatibilidad con nuestro hardware antiguo se ha deshabilitado en MOFED. Pero funciona con controladores de bandeja de entrada/Distro.
MOFED es un software experimental. Podría ser útil si el sistema falla de vez en cuando y si desea utilizar funciones de vanguardia que aún no han madurado.