Какая настройка оповещений может дать мне обзор состояний оповещений Prometheus?

Какая настройка оповещений может дать мне обзор состояний оповещений Prometheus?

Я использую prometheus и alertmanager для отправки сообщений в Slack при срабатывании оповещений. Оба размещены в Kube. Проблемы с PII не позволяют мне использовать управляемое инструментальное решение.

Я ищу варианты, которые позволят мне увидеть текущее состояние всех оповещений одним взглядом. В настоящее время сбой системы может вызвать от 1 до 20 оповещений, проявляющихся в виде 1–40 сообщений Slack (по одному для оповещения высокого и низкого уровня), и это достаточно шумно, чтобы я мог что-то пропустить.

Я бы предпочел инструмент, который публикует, скажем, одно сообщение в Slack каждые десять минут и продолжает редактировать его по мере изменения статуса.

Я экспериментировал с панелями мониторинга Grafana, но обнаружил, что это непрактично, поскольку редко кто-то проверяет их заранее.

Как вы эффективно наблюдаете за состоянием работоспособности ваших систем?

решение1

Не вдаваясь в подробности о Prometheus, хорошая система мониторинга информирует васобаспособами: он сообщает вам то, что, по его мнению, вам нужно знать, и позволяет вам найти то, что вы хотите узнать, максимально быстро и эффективно.

Лично я предпочитаю NAGIOS, поскольку в нем довольно сложная система оповещения (несколько каналов оповещения, периоды отключения, подтверждения и эскалации и т. д.), а также потому, что в нем есть несколько очень удобных синоптических представлений, которые позволяют мне одним взглядом оценить состояние сети.

Мои личные фавориты для последнего: (a) карта сети в режиме «круговой выноски», которая позволяет мне одним взглядом увидеть состояние около сотни узлов, выполняющих почти тысячу проверок служб, и (b) представление «необработанные проблемы служб», которое дает мне подробный списоквсев моей сети в данный момент этого нет.

Нолюбойинструмент, который делаетобавещи эффективно (информирует васидает вам синопсисы) должно помочь. Попробуйте несколько, пока не найдете тот, который вам подходит.

Связанный контент