Verringert die Verwendung einer Peer-Topologie das Risiko eines Serverausfalls?

Question 1

Eine Peer-to-Peer-Softwarearchitektur kann eine effiziente und fehlertolerante Möglichkeit sein, Informationen zwischen Knoten zu verbreiten, vorausgesetzt, Sie verfügen bereits über Redundanz im zugrunde liegenden Netzwerk.

Die Peer-to-Peer-Architektur kann Sie auch vor Datenverlust schützen, wenn mehrere Knoten die Daten speichern. In typischen Peer-to-Peer-Systemen speichern Knoten Daten aus eigenem Interesse. Was Sie wollen, ist etwas anderes, da Sie möchten, dass sie Daten speichern, um eine Richtlinie einzuhalten, und nicht aus eigenem Interesse.

Solange die Datenmenge begrenzt ist, ist es einfach, wenn jeder Knoten alles speichert, was er jemals gesehen hat. Aber alles zu speichern, ist aus Speicherplatzgründen (oder in manchen Szenarien aufgrund gesetzlicher Anforderungen) möglicherweise nicht praktikabel. Dann muss man vorsichtig sein, was man löscht und was man behält. Dies ist eine der größten Gefahren.

All dies trägt jedoch nichts zur Lösung des Problems der Datenintegrität und -konsistenz bei. Wenn Sie einfach auf eine Peer-to-Peer-Architektur umsteigen, ohne über die Richtigkeit der Daten nachzudenken, wird die Robustheit des Systems in dieser Hinsicht abnehmen. Es gibt einfach viel mehr Stellen, an denen Korruption auftreten kann.

Um eine solche Lösung zu implementieren, müssen Sie herausfinden, wie Sie die Integrität eines Datenelements überprüfen können.

Ein Datenelement, das immer nur von einem bestimmten Knoten im System aktualisiert werden kann, ist am einfachsten zu handhaben. Sie müssen sich jedoch immer noch die Frage stellen, welches Verhalten des Systems akzeptabel ist, wenn dieser Knoten anfängt, sich falsch zu benehmen. Es reicht nicht aus, wenn der Knoten jedes Update kryptografisch signiert, wenn er fälschlicherweise ein signiertes Update aussenden könnte, um alles zu löschen, was er zuvor geschrieben hat, oder wenn er mehrere signierte Updates aussendet, die sich über den neuen Wert der Daten nicht einig sind. Ein einfacher Ansatz besteht wiederum darin, alles zu speichern und manuelle Eingriffe zu verlangen, wenn widersprüchliche Updates auftauchen. Wenn Sie jedoch jemals eine Art automatisierte Entscheidung auf der Grundlage der Daten benötigen, ist dies unzureichend.

Wenn nur ein Knoten die Daten aktualisieren kann, Sie jedoch die strikte Anforderung haben, dass alle anderen Knoten der von ihm durchgeführten Aktualisierung zustimmen müssen, wird das Problem etwas schwieriger.

Die Lösung dieses Problems ist nicht besonders kompliziert und vermittelt einen guten Eindruck von den Methoden, die zur Lösung solcher Datenintegritätsprobleme eingesetzt werden.

Der Aktualisierungsknoten signiert aktualisierte Daten und verteilt sie über das Peer-to-Peer-Netzwerk
Empfangende Knoten signieren die erste empfangene Version und senden sie an den Aktualisierungsknoten zurück.
Sobald der Aktualisierungsknoten über Signaturen von mehr als zwei Dritteln aller Knoten (einschließlich sich selbst) verfügt, verteilt er die Daten mit der Sammlung der Signaturen erneut über das Peer-to-Peer-Netzwerk.
Jeder Knoten, der diese durch Signaturen von 2/3 validierte Version erhält, sendet sie (mit exponentiellem Backoff) weiter an alle Knoten, die noch nicht bestätigt haben, dass sie die endgültige Version der Daten dauerhaft gespeichert haben.

Der Knoten, der das Update ursprünglich senden durfte, könnte so ausfallen, dass die Daten nie wieder aktualisiert werden können. Aber solange er ein konsistentes Update sendet, wird es letztendlich konsistent im gesamten Peer-to-Peer-Netzwerk gespeichert.

Es mag so klingen, als würde die große Zahl an Signaturen, die für jedes Datenelement benötigt werden, viel Speicherplatz beanspruchen. Glücklicherweise kann dies durch eine Methode namens Schwellenwertsignaturen vermieden werden.

Wenn Sie jedoch eine Datenbank ersetzen möchten, reicht es nicht aus, dass ein Knoten ein Datenelement aktualisieren kann. Sie haben mehrere Knoten, die dasselbe Datenelement aktualisieren dürfen, aber Sie müssen sich im gesamten Netzwerk darüber einig sein, wer zuerst war. Hier kommt die byzantinische Übereinstimmung ins Spiel.

Die Lösungen hierfür sind um ein Vielfaches komplizierter als das, was ich oben beschrieben habe. Aber ich kann einige wichtige Ergebnisse nennen, die Sie beachten sollten.

Sie müssen zwischen zwei Fehlermodellen wählen. Sie können davon ausgehen, dass ein fehlerhafter Knoten einfach die Kommunikation einstellt und niemals eine einzige beschädigte Nachricht sendet. Dieses Modell erfordert weniger Hardware, aber es genügt ein einziges umgedrehtes Bit, um das System zum Absturz zu bringen.

Alternativ können Sie das byzantinische Ausfallmodell wählen, bei dem ein ausgefallener Knoten alles tun kann und das System trotzdem überlebt. Um tAusfälle in diesem Modell zu tolerieren, benötigen Sie 3t+1insgesamt Knoten. Mit anderen Worten: Um einen einzelnen ausgefallenen Knoten zu tolerieren, benötigen Sie vier Knoten. Wenn Sie insgesamt 10 Knoten haben, ist es möglich, den Ausfall von 3 Knoten zu tolerieren.

Sie müssen sich auch zwischen einem synchronen oder asynchronen Kommunikationsmodell entscheiden. Bei synchroner Kommunikation müssen Sie Annahmen über den Zeitpunkt der Kommunikation treffen. Wenn Pakete länger brauchen, um ihr Ziel zu erreichen, als angenommen, bricht das System zusammen. Wenn außerdem ein Knoten abstürzt, müssen Sie die maximal zulässige Verzögerung abwarten, bevor das System fortfahren kann.

Asynchrone Modelle machen den Softwareentwurf komplizierter, haben aber einige klare Vorteile. Sie müssen nicht auf Timeouts warten, sondern nur, bis Sie von mehr als 2/3 der Knoten gehört haben, bevor Sie fortfahren können. Dies kann viel schneller sein als bei einem synchronen Modell, bei dem Sie ein langes Timeout benötigen.

Ein weiterer Nachteil des asynchronen Modells ist, dass es randomisiert werden muss. Die Laufzeit des Algorithmus wird zu einer stochastischen Variable ohne Worst-Case-Grenze. Es besteht die theoretische Möglichkeit, dass ein Update unendlich lange dauert, aber die Wahrscheinlichkeit dafür kann als Null gezeigt werden. Und tatsächlich kann gezeigt werden, dass die durchschnittliche Anzahl der Kommunikations-Roundtrips konstant ist. Für mich sieht das im Vergleich zum synchronen Modell, das im Falle einer verzögerten Kommunikation zusammenbrechen kann, viel günstiger aus.

Wie Sie sich vorstellen können, ist es keine leichte Aufgabe, ein solches System richtig zu machen. Es bedarf einer engagierten Entwicklungsanstrengung, um dies umzusetzen. Darüber hinaus kann ein Softwarefehler das System immer noch zum Absturz bringen. Wenn weniger als ein Drittel der Knoten ausfällt, wird das System überleben. Wenn jedoch ein Fehler in der Software vorliegt, kann es durchaus sein, dass Sie diese fehlerhafte Software auf mehr als einem Drittel der Knoten installieren.

Answer