
Atualmente uso kube-prometheus-stack para monitorar vários clusters kubernetes. Cada cluster tem sua própria implantação do kube-prometheus-stack, no entanto, atualmente há apenas um cluster (a) com o alertmanager habilitado. O cluster (a) também está raspando todos os outros clusters/endpoint federado para obter algumas métricas de integridade e fazer alertas com base nelas.
Para eliminar um único ponto de falha caso o cluster (a) morra, quero ter um segundo cluster (b) com alerta habilitado que seja executado em modo de alta disponibilidade junto com o cluster (a).
Qual é o melhor método para conseguir isso?
Em relação a Prometeu:
Faça (a) e (b) Prometheus exatamente com a mesma configuração, além de talvez uma etiqueta para identificação. Eles devem conter os mesmos dados e disparar os mesmos alertas para (a) e (b) alertamanagers.
Em relação aos Alertmanagers:
Faça com que (a) e (b) os Alertmanagers se comuniquem entre si para desduplicar alertas. Isto pode ser conseguido definindo
alertmanagerSpec:
additionalPeers: []
Em relação ao Grafana:
É possível tornar o Grafana altamente disponível nesse tipo de implantação? eu sei deaquique você pode configurar o Grafana para HA permitindo que ambas as instâncias usem o mesmo banco de dados, mas como fazer isso na minha configuração?
Ficaria feliz se alguém pudesse fornecer feedback sobre essa ideia ...