Wie kann ich das automatische Failover eines Hyper-V 2012-Clusters beschleunigen?

Question

Im Nachhinein betrachtet hätte ich es wohl wissen müssen. Die Antwort besteht aus zwei Teilen, denn meiner Meinung nach gibt es geplantes Failover und „echtes“/ungeplantes Failover – und geplantes Failover zählt nicht.

Geplantes Failover

Bei einem geplanten Failover entleert das Clustering-System den Knoten und startet ihn dann für Sie neu. Wenn Sie den Knoten also direkt über RDP oder „Stop Cluster Service“ in der GUI der Clustering-App neu starten, wird als Erstes die Live-Migration der VMs beendet. Da Sie die VMs wirklich nur live migrieren, hängt die dafür benötigte Zeit davon ab, was übertragen werden muss und von der Netzwerkverbindung. Wenn Sie eine 1-GB-Netzwerkkarte haben, wird es eine Weile dauern (~118 MB/s). Je mehr RAM Ihre VMs haben, destoBesser bedient sind Sie mit schnelleren Netzwerkkarten.

Echtes Failover

Ein ungeplantes/„echtes“ Failover findet statt, wenn Sie die Maschine vom Strom trennen. In diesem Fall startet das Clustersystem die VM automatisch auf einem anderen Knoten. Das Verhalten gegenüber der Außenwelt ist dasselbe, als ob Sie die VM neu gestartet hätten. Für die VM ist es dasselbe, als ob Sie sie „ausgeschaltet“ und dann erneut gestartet hätten. Bei einem „echten“ Failover geht es also immer darum, wie lange das Booten Ihrer VMs dauert.

Tangente

Das ist für mich konzeptionell eine Enttäuschung, weil ich das Gefühl habe, dass alle Clustering-Diskussionen im Internet darauf schließen lassen, dass ein („harter“) Knotenausfall durch das Clustering-System verborgen wird – es soll so sein, als ob die Dienste nie ausgefallen wären. Das liegt wahrscheinlich daran, dass alle Webseiten, die ich gelesen habe, ihr Cluster-Failover per Software getestet haben (geplantes Failover). Sie beweisen also lediglich, dass Live Migration wie angekündigt funktioniert (keine Ausfallzeit aus Sicht des Clients).

Mein Hauptfehler war, dass ich Failover selbst falsch verstanden habe. Neben dem Konzept eines Hot/Warm/Cold-Backup-Servers, bei dem ein automatisches Failover auf einem Hot-Server erfolgt, gibt es auch Hot/Warm/Cold-Failover. Wie bereits erwähntHier, Hot Failover erfolgt sofort, Warm Failover wird in Sekunden gemessen und Cold Failover in Minuten. Es war naiv von mir anzunehmen, dass alle automatischen Fehler „heiß“ sind. Ich schätze, ich habe eine Art Zauberei mit dem RAM erwartet, bei der der Cluster eine Kopie des RAM der VM auf einem anderen Knoten aktualisiert – so etwas wie das Senden von Transaktionsprotokollen mit SQL Server. Aber das würde einen Kommunikationskanal zwischen den Maschinen erfordern, der mindestens so schnell ist wie der RAM, um zu garantieren, dass es funktioniert.

Answer 1

Im Nachhinein betrachtet hätte ich es wohl wissen müssen. Die Antwort besteht aus zwei Teilen, denn meiner Meinung nach gibt es geplantes Failover und „echtes“/ungeplantes Failover – und geplantes Failover zählt nicht.

Geplantes Failover

Bei einem geplanten Failover entleert das Clustering-System den Knoten und startet ihn dann für Sie neu. Wenn Sie den Knoten also direkt über RDP oder „Stop Cluster Service“ in der GUI der Clustering-App neu starten, wird als Erstes die Live-Migration der VMs beendet. Da Sie die VMs wirklich nur live migrieren, hängt die dafür benötigte Zeit davon ab, was übertragen werden muss und von der Netzwerkverbindung. Wenn Sie eine 1-GB-Netzwerkkarte haben, wird es eine Weile dauern (~118 MB/s). Je mehr RAM Ihre VMs haben, destoBesser bedient sind Sie mit schnelleren Netzwerkkarten.

Echtes Failover

Ein ungeplantes/„echtes“ Failover findet statt, wenn Sie die Maschine vom Strom trennen. In diesem Fall startet das Clustersystem die VM automatisch auf einem anderen Knoten. Das Verhalten gegenüber der Außenwelt ist dasselbe, als ob Sie die VM neu gestartet hätten. Für die VM ist es dasselbe, als ob Sie sie „ausgeschaltet“ und dann erneut gestartet hätten. Bei einem „echten“ Failover geht es also immer darum, wie lange das Booten Ihrer VMs dauert.

Tangente

Das ist für mich konzeptionell eine Enttäuschung, weil ich das Gefühl habe, dass alle Clustering-Diskussionen im Internet darauf schließen lassen, dass ein („harter“) Knotenausfall durch das Clustering-System verborgen wird – es soll so sein, als ob die Dienste nie ausgefallen wären. Das liegt wahrscheinlich daran, dass alle Webseiten, die ich gelesen habe, ihr Cluster-Failover per Software getestet haben (geplantes Failover). Sie beweisen also lediglich, dass Live Migration wie angekündigt funktioniert (keine Ausfallzeit aus Sicht des Clients).

Mein Hauptfehler war, dass ich Failover selbst falsch verstanden habe. Neben dem Konzept eines Hot/Warm/Cold-Backup-Servers, bei dem ein automatisches Failover auf einem Hot-Server erfolgt, gibt es auch Hot/Warm/Cold-Failover. Wie bereits erwähntHier, Hot Failover erfolgt sofort, Warm Failover wird in Sekunden gemessen und Cold Failover in Minuten. Es war naiv von mir anzunehmen, dass alle automatischen Fehler „heiß“ sind. Ich schätze, ich habe eine Art Zauberei mit dem RAM erwartet, bei der der Cluster eine Kopie des RAM der VM auf einem anderen Knoten aktualisiert – so etwas wie das Senden von Transaktionsprotokollen mit SQL Server. Aber das würde einen Kommunikationskanal zwischen den Maschinen erfordern, der mindestens so schnell ist wie der RAM, um zu garantieren, dass es funktioniert.

Wie kann ich das automatische Failover eines Hyper-V 2012-Clusters beschleunigen?

Antwort1

Geplantes Failover

Echtes Failover

Tangente

verwandte Informationen