
我目前使用 kube-prometheus-stack 來監控幾個 kubernetes 叢集。每個叢集都有自己的 kube-prometheus-stack 部署,但是,目前只有一個叢集 (a) 啟用了 Alertmanager。集群 (a) 還抓取所有其他集群/聯合端點以獲取一些運行狀況指標並根據這些指標發出警報。
為了消除叢集 (a) 崩潰時的單點故障,我希望有第二個啟用警報的叢集 (b),它與叢集 (a) 一起以高可用性模式運行。
實現這一目標的最佳方法是什麼?
關於普羅米修斯:
除了用於識別的標籤之外,使(a)和(b)Prometheus 的配置完全相同。它們應該包含相同的資料並向 (a) 和 (b) 警報管理器發出相同的警報。
關於警報管理器:
使 (a) 和 (b) Alertmanager 相互通信以消除重複的警報。這可以透過設定來實現
alertmanagerSpec:
additionalPeers: []
關於格拉法納:
在這種部署中是否可以實現 Grafana 的高可用性?我知道從這裡您可以透過讓兩個實例使用相同的資料庫來設定 Grafana 以實現 HA,但如何在我的設定中執行此操作?
如果有人可以就這個想法提供回饋,我會很高興...