Мы проводим двухгодичное тестирование отказоустойчивости на кластере VCS из 4 узлов. С двумя приложениями, работающими на узлах 1-3 и 2-4 соответственно в активно-резервном режиме.
При ручном переключении или плавном завершении работы одного узла приложение автоматически переключится на другой узел.
Однако, когда мы отключаем или сбрасываем узел, кажется, что отсутствие передачи управления затронутым узлом вызывает срабатываниеперезагрузка остальных узлов кластера. Более того, в случае отключения оставшиеся узлы перезапускаются, ноне удалось присоединиться к кластеру. Когда убитый сервер возобновляет работу, все подключаются снова.
Это, очевидно, полностью противоречит цели кластера. Наш поставщик, который предоставил приложения и программное обеспечение кластера (вместе с оборудованием), предполагает, что такой случай нереалистичен и что серверы всегда хорошо переключаются при выходе из строя.
У нас нет специализации в собственных кластерных технологиях, поэтому, хотя мы и предполагаем, что их утверждение неверно, мы не знаем, что именно может пойти не так. Я подозреваю, однако, что любое коммерчески успешное кластерное программное обеспечение может справиться с этими ситуациями, но наша реализация страдает от ошибок конфигурации.
Буду признателен за любую подсказку.