피어 토폴로지를 사용하면 서버 오류 위험이 완화됩니까?

Question 1

P2P 소프트웨어 아키텍처는 기본 네트워크에 이미 중복성이 있다는 가정 하에 노드 간에 정보를 전파하는 효율적이고 내결함성 있는 방법이 될 수 있습니다.

P2P 아키텍처는 여러 노드가 데이터를 보관하는 경우 데이터 손실로부터 사용자를 보호할 수도 있습니다. 일반적인 P2P 시스템에서는 노드가 자신의 이익을 위해 데이터를 보관합니다. 개인의 이익보다는 정책 준수로 인해 데이터를 보관하기를 원하기 때문에 원하는 것이 다릅니다.

지금까지 본 모든 것을 저장하는 각 노드는 데이터 양이 제한되어 있는 한 간단합니다. 그러나 모든 것을 저장하는 것은 저장 공간으로 인해(또는 법적 요구 사항으로 인해 일부 시나리오에서) 실용적이지 않을 수 있습니다. 그러면 무엇을 삭제할지, 무엇을 유지할지 신중하게 생각해야 합니다. 이것은 주요 함정 중 하나입니다.

그러나 이 모든 것은 데이터 무결성 및 데이터 일관성 문제를 해결하는 데 아무런 도움이 되지 않습니다. 데이터의 정확성을 고려하지 않고 단순히 P2P 아키텍처로 전환하면 해당 측면에서 시스템의 견고성이 저하됩니다. 부패가 유입될 수 있는 곳이 더 많습니다.

이러한 솔루션을 구현하려면 데이터 조각의 무결성을 검증하는 방법을 파악해야 합니다.

시스템의 특정 노드에서만 업데이트할 수 있는 데이터 조각이 처리하기 가장 쉽습니다. 하지만 해당 노드가 오작동하기 시작하면 시스템의 허용 가능한 동작이 무엇인지에 대해 여전히 질문해야 합니다. 노드가 각 업데이트에 암호화 방식으로 서명하는 것만으로는 충분하지 않습니다. 이전에 작성한 모든 내용을 삭제하기 위해 서명된 업데이트를 잘못 보낼 수 있거나 데이터의 새 값이 무엇인지에 동의하지 않는 여러 개의 서명된 업데이트를 보낼 수 있는 경우에는 충분하지 않습니다. 간단한 접근 방식은 모든 것을 저장하고 충돌하는 업데이트가 나타날 경우 수동 개입을 요구하는 것입니다. 그러나 데이터를 기반으로 어떤 종류의 자동화된 결정을 내려야 한다면 그것만으로는 충분하지 않습니다.

하나의 노드만 데이터를 업데이트할 수 있지만 다른 모든 사람이 해당 노드가 수행한 업데이트에 동의해야 한다는 엄격한 요구 사항이 있는 경우 문제는 약간 더 어려워집니다.

이 문제에 대한 해결책은 아직까지 그다지 복잡하지 않으며, 그러한 데이터 무결성 문제를 해결하는 데 사용되는 방법의 종류에 대한 좋은 아이디어를 제공합니다.

노드를 업데이트하면 업데이트된 데이터에 서명하고 이를 P2P 네트워크를 통해 배포합니다.
수신 노드는 수신된 첫 번째 버전에 서명하고 이를 업데이트 노드로 다시 보냅니다.
업데이트 노드가 전체 노드(자신 포함)의 2/3 이상으로부터 서명을 받으면 서명을 수집하여 다시 P2P 네트워크를 통해 데이터를 배포합니다.
2/3의 서명으로 검증된 이 버전을 수신하는 모든 노드는 데이터의 최종 버전을 영구적으로 저장했는지 아직 확인하지 않은 모든 노드에 계속 재전송합니다(지수 백오프 사용).

처음에 업데이트를 보내도록 허용된 노드는 데이터가 다시 업데이트되지 않도록 하는 방식으로 실패할 수 있습니다. 그러나 일관된 업데이트를 보내는 한 P2P 네트워크 전체에 일관되게 저장됩니다.

모든 데이터에 필요한 많은 수의 서명에는 많은 저장 공간이 필요한 것처럼 들릴 수 있습니다. 다행히 이는 임계값 서명이라는 방법을 통해 피할 수 있습니다.

그러나 데이터베이스를 교체하려는 경우 하나의 노드가 데이터 조각을 업데이트하는 것만으로는 충분하지 않습니다. 동일한 데이터 조각을 업데이트할 수 있는 여러 노드가 있지만 누가 먼저 업데이트했는지에 대해 전체 네트워크가 동의해야 합니다. 이것이 비잔틴 합의가 등장하는 곳입니다.

이에 대한 해결책은 위에서 설명한 것보다 훨씬 더 복잡합니다. 하지만 알아야 할 몇 가지 주요 결과를 언급할 수 있습니다.

두 가지 실패 모델 중에서 선택해야 합니다. 실패한 노드는 단순히 통신을 중단하고 손상된 메시지를 하나도 보내지 않는다고 가정할 수 있습니다. 이 모델에는 더 적은 하드웨어가 필요하지만 시스템을 중단시키는 데 단 한 번의 플립 비트만 있으면 됩니다.

또는 실패한 노드가 무엇이든 할 수 있도록 허용하는 비잔틴 실패 모델을 선택할 수 있으며 시스템은 계속 유지됩니다. 이 모델에서 장애를 허용하려면 총 노드가 t필요합니다 . 3t+1즉, 단일 장애가 발생한 노드를 허용하려면 4개의 노드가 필요합니다. 총 10개의 노드가 있다면 3개 노드의 장애를 견딜 수 있습니다.

또한 동기식 또는 비동기식 통신 모델 중에서 선택해야 합니다. 동기식 통신은 통신 타이밍을 가정한다는 의미입니다. 패킷이 목적지에 도달하는 데 예상보다 오랜 시간이 걸리면 시스템이 중단됩니다. 게다가 노드가 충돌하는 경우 시스템이 계속되기 전에 허용되는 최대 지연까지 기다려야 합니다.

비동기식 모델은 소프트웨어 설계를 더 복잡하게 만들지 만 몇 가지 분명한 장점이 있습니다. 시간 초과를 기다릴 필요가 없으며 계속하기 전에 노드의 2/3 이상으로부터 응답을 들을 때까지 기다려야 합니다. 이는 큰 시간 초과가 필요한 동기식 모델보다 훨씬 빠를 수 있습니다.

비동기식 모델의 또 다른 단점은 무작위화되어야 한다는 것입니다. 알고리즘의 실행 시간은 최악의 경우에 국한되지 않는 확률적 변수가 됩니다. 업데이트에 무한한 시간이 걸릴 것이라는 이론적 가능성이 있지만 그럴 확률은 0으로 표시될 수 있습니다. 그리고 실제로 평균 통신 왕복 횟수는 일정하다는 것을 알 수 있습니다. 나에게 이것은 통신이 지연될 경우 고장날 수 있는 동기식 모델에 비해 훨씬 유리해 보입니다.

상상할 수 있듯이 이러한 시스템을 올바르게 구축하는 것은 쉬운 일이 아닙니다. 이를 구현하려면 헌신적인 개발 노력이 필요합니다. 게다가 소프트웨어 버그로 인해 시스템이 다운될 수도 있습니다. 노드의 1/3 미만이 실패하더라도 시스템은 유지됩니다. 그러나 소프트웨어에 버그가 있는 경우 노드의 1/3 이상에 버그가 있는 소프트웨어를 설치할 수도 있습니다.

Answer