Estamos realizando pruebas de resiliencia cada dos años en un clúster VCS de 4 nodos. Con dos aplicaciones ejecutándose en los nodos 1-3 y 2-4 resp. en modo activo-en espera.
Al realizar un cambio manual o un cierre ordenado en un nodo, la aplicación cambiará muy bien al otro nodo.
Sin embargo, cuando apagamos o reiniciamos un nodo, parece que la ausencia de una transferencia por parte del nodo afectado desencadenaun reinicio de los otros nodos del clúster. Es más, en caso de un apagado, los nodos restantes se reinician, perono puedo unirme al cluster. Cuando se reanude el servidor eliminado, todos se unirán nuevamente.
Obviamente, esto va en contra del propósito de un clúster. Nuestro proveedor que proporcionó las aplicaciones y el software del cluster (con el hardware) propone que tal caso no es realista y que los servidores siempre funcionan bien cuando fallan.
No estamos especializados en tecnologías de clúster patentadas, por lo que, aunque asumimos que su afirmación es incorrecta, no sabemos qué es lo que posiblemente esté fallando. Sin embargo, sospecho que cualquier software de clúster comercialmente exitoso puede manejar estas situaciones, pero nuestra implementación sufre errores de configuración.
Cualquier pista sería apreciada.