
У меня есть несколько серверов, которые отслеживаются munin, и довольно часто один из выбранных блоков имеет временный сбой чтения данных. Это приводит меня к двум письмам, одно из которых сообщает мне, что все значения неизвестны, а второе, пять минут спустя, сообщает мне, что все в порядке.
Насколько я могу судить, munin функционирует так, как задумано, но я хотел бы узнать, есть ли способ отложить отправку первоначального оповещения о «неизвестном» на один цикл обновления, чтобы не сообщалось о временных неизвестных? Все, чего добивается моя текущая настройка, — это обучение меня игнорировать предупреждающие письма.
Если это не удастся, есть ли способ полностью отключить отправку «неизвестных» оповещений и соответствующих им оповещений о восстановлении?
решение1
Я на самом деле не использую Munin, но, как я вижу, unknown_limit
для элементов/плагинов можно задать настройку, которая определяет, сколько последовательных неудачных чтений должно произойти, прежде чем будет установлено значение «неизвестно».
Судя по модулю Munin::LimitsOld, по умолчанию он равен 3. Думаю, вам следует попробовать установить или увеличить это число.
Я проверил это на Munin 1.4.5.
решение2
Я достигаю этого, используя munin notify, не напрямую для конечных пользователей, а в NAGIOS через NSCA, и заставляя NAGIOS обрабатывать уведомления. Это означает, что я могу использовать (гораздо более сложные) элементы управления NAGIOS для задержки уведомлений, частоты, эскалаций и т. д. Да, NAGIOS довольно тяжеловесен только для того, чтобы быть движком уведомлений, но вы можете затем использовать его и для качественного (а не количественного) мониторинга.
решение3
Помните, что одним из больших преимуществ использования инструментов с открытым исходным кодом является то, что вы можете посмотреть на исходный код, чтобы увидеть, что именно они делают (и изменить поведение, если оно вам не нравится). Быстрый просмотр LimitsOld.pm показывает, что предложение Габора является правильным подходом - unknown_limit может быть установлен для каждой службы или глобально и появился около Munin 1.4.4 (см.http://munin-monitoring.org/ticket/828).