redundância kube-prometheus-stack em vários clusters

redundância kube-prometheus-stack em vários clusters

Atualmente uso kube-prometheus-stack para monitorar vários clusters kubernetes. Cada cluster tem sua própria implantação do kube-prometheus-stack, no entanto, atualmente há apenas um cluster (a) com o alertmanager habilitado. O cluster (a) também está raspando todos os outros clusters/endpoint federado para obter algumas métricas de integridade e fazer alertas com base nelas.

Para eliminar um único ponto de falha caso o cluster (a) morra, quero ter um segundo cluster (b) com alerta habilitado que seja executado em modo de alta disponibilidade junto com o cluster (a).

Qual é o melhor método para conseguir isso?

Em relação a Prometeu:

Faça (a) e (b) Prometheus exatamente com a mesma configuração, além de talvez uma etiqueta para identificação. Eles devem conter os mesmos dados e disparar os mesmos alertas para (a) e (b) alertamanagers.

Em relação aos Alertmanagers:

Faça com que (a) e (b) os Alertmanagers se comuniquem entre si para desduplicar alertas. Isto pode ser conseguido definindo

alertmanagerSpec:
  additionalPeers: []

Em relação ao Grafana:

É possível tornar o Grafana altamente disponível nesse tipo de implantação? eu sei deaquique você pode configurar o Grafana para HA permitindo que ambas as instâncias usem o mesmo banco de dados, mas como fazer isso na minha configuração?

Ficaria feliz se alguém pudesse fornecer feedback sobre essa ideia ...

informação relacionada