Atrasando notificações Munin

Atrasando notificações Munin

Tenho alguns servidores monitorados pelo munin e, com bastante frequência, uma dentre uma seleção de unidades apresenta uma falha transitória na leitura de dados. Isso me rende dois e-mails, um me informando que todos os valores são desconhecidos e o segundo, cinco minutos depois, informando que, afinal, está tudo bem.

Pelo que sei, o munin está funcionando conforme projetado aqui, mas gostaria de saber se há alguma maneira de atrasar o envio do alerta inicial de 'desconhecido' para um ciclo de atualização, para que incógnitas transitórias não sejam relatadas. Tudo o que minha configuração atual está conseguindo é me treinar para ignorar os e-mails de aviso.

Caso contrário, existe alguma maneira de desativar completamente o envio de alertas 'desconhecidos' e seus alertas de recuperação correspondentes?

Responder1

Eu realmente não uso o Munin, mas pelo que vejo, uma unknown_limitconfiguração pode ser definida para itens/plugins que define quantas leituras consecutivas malsucedidas devem ocorrer antes de definir um valor como "desconhecido".

Com base no módulo Munin::LimitsOld, o padrão é 3, acho que você deveria tentar definir ou aumentar esse número.

Eu verifiquei isso no Munin 1.4.5.

Responder2

Eu consigo isso fazendo com que o munin notifique, não diretamente aos usuários finais, mas no NAGIOS via NSCA, e fazendo com que o NAGIOS cuide das notificações. Isso significa que posso usar os controles do NAGIOS (muito mais sofisticados) sobre atraso de notificação, frequência, escalonamentos e assim por diante. Sim, o NAGIOS é bastante pesado apenas para ser um mecanismo de notificação, mas você também pode usá-lo para monitoramento qualitativo (em vez de quantitativo).

Responder3

Lembre-se de que um dos grandes benefícios de usar ferramentas de código aberto é que você pode olhar a fonte para ver exatamente o que elas fazem (e mudar o comportamento se não gostar). Uma rápida varredura em LimitsOld.pm mostra que a sugestão de Gábor é a abordagem correta - desconhecido_limit pode ser definido por serviço ou globalmente e apareceu em torno do Munin 1.4.4 (consultehttp://munin-monitoring.org/ticket/828).

informação relacionada