Estoy trabajando con un grupo de 13 computadoras, ejecutándose en Windows Server 2012 R2, usando MS HPC Pack 2012 R2. El nodo principal está funcionando correctamente. Los servidores están conectados a la red corporativa a través de IPv4 en adaptadores estándar. Sin embargo, los nodos también están conectados entre sí a través de infiniBand.
Hace una semana, el clúster se trasladó a un nuevo dominio, con los mismos nombres de host. Por supuesto, el FQDN cambió y se comporta correctamente en la mayoría de los casos, excepto que Network Direct ahora está configurado en falso en los 12 nodos de cómputo.
Después de la migración, se reinstalaron todos los componentes de HPC en el nodo principal. Los nodos quedaron intactos. Como pensé que esta era la razón por la que Network Direct estaba habilitado, también intenté reinstalar HPC en uno de los nodos. Eso no resolvió el problema.
El Firewall de Windows está desactivado en todos los niveles de todos los nodos, incluido el nodo principal.
En
- Adaptador ifiniBand en el nodo principal: Adaptador IPoIB Mellanox ConnectX-3 Pro
- Adaptador inifiniBand en nodos: Adaptador IPoIB HP 10Gb/40Gb de 2 puertos 544+FLR-QSFP
Los servidores responden a solicitudes PING en las IP configuradas para los adaptadores infiniBand.
¿Alguien tiene alguna idea sobre esto? Gracias de antemano.
Respuesta1
Actualice las NIC de Mellanox a Etherent para que todo funcione de manera confiable. ¡InfiBand con Windows es un PITA!