どのようなアラート設定で Prometheus アラート状態の概要を把握できますか?

どのようなアラート設定で Prometheus アラート状態の概要を把握できますか?

私は、アラートが発生したときに Slack にメッセージを投稿するために、prometheus と alertmanager を使用しています。どちらも Kube で自己ホストされています。PII に関する懸念から、管理された計測ソリューションを使用することができません。

すべてのアラートの現在の状態を一目で確認できるオプションを探しています。現時点では、システム障害によって 1 ~ 20 件のアラートがトリガーされ、1 ~ 40 件の Slack メッセージ (アラート高、アラート低のそれぞれに 1 件) として表示されるため、ノイズが多く、見逃してしまうことがあります。

私が好むのは、たとえば 10 分ごとに 1 つの Slack メッセージを投稿し、ステータスが変化するとそれを編集し続けるようなツールです。

私は Grafana ダッシュボードを試してみましたが、積極的にチェックする人がほとんどいないため、実用的ではないことがわかりました。

システムの健全性を効率的に観察するにはどうすればいいでしょうか?

答え1

プロメテウスに特化することなく、優れた監視システムは次のような情報を提供します両方方法: ユーザーが知る必要があると思われる情報を教えてくれ、ユーザーが知りたい情報をできるだけ迅速かつ効率的に見つけられるようにします。

私の個人的な好みは NAGIOS です。アラート機能が非常に洗練されており (複数のアラート チャネル、ブラックアウト期間、確認とエスカレーションなど)、また、ネットワークの健全性を一目で把握できる非常に優れた概要ビューを備えているからです。

後者の私のお気に入りは、(a)「円形バルーン」モードのネットワークマップです。これにより、約1000のサービスチェックを実行している約100のノードの状態を一目で確認できます。(b)「未処理のサービスの問題」ビューでは、詳細なリストが表示されます。すべてそれは現在私のネットワークでは正しくありません。

しかしどれでもツールは両方物事を効果的に(あなたに知らせるそして(概要を教えてくれる)が役に立つはずです。いくつか試してみて、自分に合ったものが見つかるまで待ちましょう。

関連情報