Wir führen alle zwei Jahre einen Resilienztest an einem VCS-Cluster mit 4 Knoten durch. Dabei laufen zwei Anwendungen auf den Knoten 1-3 bzw. 2-4 im Aktiv-Standby-Modus.
Wenn Sie eine manuelle Umschaltung oder ein ordnungsgemäßes Herunterfahren eines Knotens durchführen, wird die Anwendung reibungslos auf den anderen Knoten umgeschaltet.
Wenn wir jedoch einen Knoten ausschalten oder zurücksetzen, scheint das Fehlen einer Übergabe durch den betroffenen Knoten Auslöser zu seinein Neustart der anderen Clusterknoten. Außerdem werden im Falle eines Ausfalls die verbleibenden Knoten neu gestartet, aberFehler beim Beitritt zum Cluster. Wenn der ausgeschaltete Server fortgesetzt wird, treten alle wieder bei.
Dies widerspricht natürlich völlig dem Zweck eines Clusters. Unser Anbieter, der die Anwendungen und die Cluster-Software (mit der Hardware) bereitgestellt hat, ist der Ansicht, dass ein solcher Fall nicht realistisch ist und dass Server bei Ausfällen immer problemlos weiterarbeiten.
Wir sind nicht auf proprietäre Cluster-Technologien spezialisiert. Wir gehen also davon aus, dass ihre Aussage falsch ist, wissen aber nicht, was möglicherweise schief läuft. Ich vermute jedoch, dass jede kommerziell erfolgreiche Cluster-Software mit diesen Situationen umgehen kann, aber unsere Implementierung leidet unter Konfigurationsfehlern.
Jeder Hinweis wäre willkommen.