哪些警報設定可以讓我概覽 Prometheus 警報狀態?

哪些警報設定可以讓我概覽 Prometheus 警報狀態?

我正在使用 Prometheus 和 Alertmanager 在警報觸發時將訊息發佈到 Slack。兩者均在 Kube 中自行託管。 PII 問題使我無法使用託管儀器解決方案。

我正在尋找可以讓我一目了然地查看所有警報當前狀態的選項。目前,系統故障可能會觸發 1-20 個警報,表現為 1-40 個鬆弛訊息(高警報和低警報各一條),而且噪音太大,我可能會錯過一些東西。

我更喜歡這樣的工具,例如每十分鐘發布一條鬆弛訊息,並隨著狀態變化不斷編輯它。

我嘗試過 Grafana 儀表板,但發現它不實用,因為很少有人主動檢查它。

你們如何有效地觀察系統狀態的健康狀況?

答案1

無需特定於普羅米修斯,良好的監控系統會通知您兩個都方式:它告訴您它認為您需要了解的內容,並讓您盡可能快速有效地找到您想了解的內容。

我個人更喜歡 NAGIOS,因為它的警報端非常複雜(多個警報通道、停電時間段、確認和升級等),而且還因為它有一些非常好的概要視圖,讓我可以快速了解網路運作狀況。一眼。

我個人最喜歡後者的是(a)「圓形氣球」模式下的網路地圖,它讓我一目了然地看到大約一百個節點運行近千個服務檢查的健康狀況,以及(b)「未處理的服務問題” “視圖,它給了我一個詳細的列表一切目前在我的網路上不正確。

任何的工具兩個都有效地做事(告訴你給你概要)應該有幫助。嘗試一些,直到找到適合您的。

相關內容