跨多個叢集的 kube-prometheus-stack 冗餘

2024-6-28 • tag-icon

我目前使用 kube-prometheus-stack 來監控幾個 kubernetes 叢集。每個叢集都有自己的 kube-prometheus-stack 部署，但是，目前只有一個叢集 (a) 啟用了 Alertmanager。集群 (a) 還抓取所有其他集群/聯合端點以獲取一些運行狀況指標並根據這些指標發出警報。

為了消除叢集 (a) 崩潰時的單點故障，我希望有第二個啟用警報的叢集 (b)，它與叢集 (a) 一起以高可用性模式運行。

實現這一目標的最佳方法是什麼？

關於普羅米修斯：

除了用於識別的標籤之外，使（a）和（b）Prometheus 的配置完全相同。它們應該包含相同的資料並向 (a) 和 (b) 警報管理器發出相同的警報。

關於警報管理器：

使 (a) 和 (b) Alertmanager 相互通信以消除重複的警報。這可以透過設定來實現

alertmanagerSpec:
  additionalPeers: []

關於格拉法納：

在這種部署中是否可以實現 Grafana 的高可用性？我知道從這裡您可以透過讓兩個實例使用相同的資料庫來設定 Grafana 以實現 HA，但如何在我的設定中執行此操作？

如果有人可以就這個想法提供回饋，我會很高興...

相關內容