¿El uso de una topología de pares mitiga el riesgo de falla del servidor?

Question 1

Una arquitectura de software de igual a igual puede ser una forma eficiente y tolerante a fallas de difundir información entre nodos, suponiendo que ya tenga redundancia en la red subyacente.

La arquitectura peer to peer también puede protegerlo contra la pérdida de datos si varios nodos conservan los datos. En los sistemas típicos de igual a igual, los nodos guardan datos debido a su propio interés. Lo que desea es diferente, ya que desea que conserven los datos debido a que se adhieren a una política y no a un interés individual.

Cada nodo almacena todo lo que vio es simple siempre que la cantidad de datos sea limitada. Pero almacenar todo puede no ser práctico debido al espacio de almacenamiento (o en algunos escenarios debido a requisitos legales). Entonces hay que tener cuidado con qué eliminar y qué conservar. Éste es uno de los mayores escollos.

Pero todo esto no contribuye en nada a abordar la cuestión de la integridad y la coherencia de los datos. Si simplemente cambia a una arquitectura peer to peer sin pensar en la exactitud de los datos, entonces la solidez del sistema a ese respecto disminuirá. Simplemente hay muchos más lugares donde se puede introducir la corrupción.

Para implementar una solución de este tipo, es necesario descubrir cómo validar la integridad de un dato.

Un dato que sólo puede ser actualizado por un nodo específico del sistema es el más fácil de manejar. Pero aún hay que preguntarse cuál es el comportamiento aceptable del sistema, si ese nodo comienza a comportarse mal. Hacer que el nodo firme criptográficamente cada actualización no es suficiente, si podría enviar erróneamente una actualización firmada para eliminar todo lo que escribió anteriormente o enviar múltiples actualizaciones firmadas que no estén de acuerdo sobre cuál es el nuevo valor de los datos. Una vez más, un enfoque simple es almacenar todo y requerir intervención manual, si aparecen actualizaciones conflictivas. Pero si alguna vez necesita tomar algún tipo de decisión automatizada basada en los datos, entonces eso es insuficiente.

Si solo un nodo puede actualizar los datos, pero usted tiene un requisito estricto de que todos los demás estén de acuerdo sobre qué actualización realizó, entonces el problema se vuelve un poco más difícil.

La solución a este problema todavía no es extremadamente complicada y da una buena idea de los tipos de métodos utilizados para resolver dichos problemas de integridad de datos.

El nodo de actualización firma datos actualizados y los distribuye a través de la red de igual a igual
Los nodos receptores firman la primera versión recibida y la envían de regreso al nodo de actualización
Una vez que el nodo de actualización tiene firmas de más de 2/3 de todos los nodos (incluido él mismo), distribuye los datos a través de la red de igual a igual nuevamente con la recopilación de firmas.
Cada nodo que reciba esta versión validada por firmas de 2/3 seguirá retransmitiendo (con retroceso exponencial) a todos los nodos que aún no hayan confirmado que han almacenado permanentemente la versión final de los datos.

El nodo al que se le permitió enviar la actualización en primer lugar podría fallar de manera que impidiera que los datos se actualizaran nuevamente. Pero siempre que envíe una actualización consistente, terminará almacenándose de manera consistente en toda la red de igual a igual.

Puede parecer que la gran cantidad de firmas necesarias en cada dato requerirá mucho espacio de almacenamiento. Afortunadamente, esto se puede evitar mediante un método conocido como firmas de umbral.

Pero si desea reemplazar una base de datos, no es suficiente que un nodo pueda actualizar un dato. Tiene varios nodos, a los que se les permite actualizar el mismo dato, pero necesita que toda la red se ponga de acuerdo sobre quién fue primero. Aquí es donde el acuerdo bizantino entra en escena.

Las soluciones a esto son un orden de magnitud más complicadas que las que describí anteriormente. Pero puedo mencionar algunos resultados clave a tener en cuenta.

Hay que elegir entre dos modelos de fracaso. Se puede suponer que un nodo defectuoso simplemente deja de comunicarse y nunca envía un solo mensaje corrupto. Este modelo requiere menos hardware, pero solo se necesita un bit invertido para desactivar el sistema.

Alternativamente, puede elegir el modelo de falla bizantina, que permite que un nodo defectuoso haga cualquier cosa y el sistema aún sobrevivirá. Para tolerar tfallas en este modelo, necesita 3t+1nodos en total. En otras palabras, para tolerar un único nodo defectuoso se necesitan cuatro nodos. Si tiene 10 nodos en total, es posible tolerar el fallo de 3 nodos.

También hay que elegir entre el modelo de comunicación síncrono o asíncrono. La comunicación sincrónica significa que usted hace suposiciones sobre el momento de la comunicación. Si los paquetes tardan más de lo previsto en llegar a su destino, el sistema falla. Además, si un nodo falla, debe esperar el retraso máximo permitido antes de que el sistema pueda continuar.

Los modelos asincrónicos complican el diseño del software, pero tienen algunas ventajas claras. No tiene que esperar a que se agoten los tiempos de espera, sino que simplemente debe esperar hasta haber recibido noticias de más de 2/3 de los nodos antes de poder continuar; esto puede ser mucho más rápido que un modelo sincrónico en el que necesita un tiempo de espera grande.

Otro inconveniente del modelo asincrónico es que debe ser aleatorio. El tiempo de ejecución del algoritmo se convierte en una variable estocástica sin límite en el peor de los casos. Existe una posibilidad teórica de que una actualización tarde un tiempo infinito, pero se puede demostrar que la probabilidad de que esto ocurra es cero. Y, de hecho, se puede demostrar que el número medio de viajes de ida y vuelta de comunicación es constante. Para mí, esto parece mucho más favorable en comparación con el modelo sincrónico, que puede fallar en caso de retraso en la comunicación.

Como puedes imaginar, lograr que un sistema de este tipo funcione correctamente no es una tarea fácil. Se necesita un esfuerzo de desarrollo dedicado para implementar esto. Además, un error de software aún puede provocar la caída del sistema. Si fallan menos de un tercio de los nodos, el sistema sobrevivirá. Pero si existe un error en el software, es muy posible que instale ese software defectuoso en más de un tercio de los nodos.

Answer