Redundancia de kube-prometheus-stack en múltiples clústeres

Redundancia de kube-prometheus-stack en múltiples clústeres

Actualmente uso kube-prometheus-stack para monitorear varios clústeres de Kubernetes. Cada clúster tiene su propia implementación de kube-prometheus-stack; sin embargo, actualmente solo hay un clúster (a) que tiene alertmanager habilitado. El clúster (a) también está eliminando todos los demás clústeres/puntos finales federados para obtener algunas métricas de estado y generar alertas basadas en ellas.

Para eliminar un único punto de falla en caso de que el clúster (a) muera, quiero tener un segundo clúster (b) con alertas habilitadas que se ejecute en modo de alta disponibilidad junto con el clúster (a).

¿Cuál es el mejor método para lograrlo?

Respecto a Prometeo:

Haga que (a) y (b) Prometheus tengan exactamente la misma configuración, además de tal vez una etiqueta para identificación. Deben contener los mismos datos y activar las mismas alertas a (a) y (b) administradores de alertas.

Respecto a los administradores de alertas:

Haga que (a) y (b) los administradores de alertas se comuniquen entre sí para eliminar alertas duplicadas. Esto se puede lograr estableciendo

alertmanagerSpec:
  additionalPeers: []

Respecto a Grafana:

¿Es siquiera posible lograr que Grafana tenga una alta disponibilidad en este tipo de implementación? lo sé poraquíque puedes configurar Grafana para HA permitiendo que ambas instancias usen la misma base de datos, pero ¿cómo hacerlo en mi configuración?

Sería feliz si alguien pudiera dar su opinión sobre esta idea...

información relacionada