
Tenho alguns servidores monitorados pelo munin e, com bastante frequência, uma dentre uma seleção de unidades apresenta uma falha transitória na leitura de dados. Isso me rende dois e-mails, um me informando que todos os valores são desconhecidos e o segundo, cinco minutos depois, informando que, afinal, está tudo bem.
Pelo que sei, o munin está funcionando conforme projetado aqui, mas gostaria de saber se há alguma maneira de atrasar o envio do alerta inicial de 'desconhecido' para um ciclo de atualização, para que incógnitas transitórias não sejam relatadas. Tudo o que minha configuração atual está conseguindo é me treinar para ignorar os e-mails de aviso.
Caso contrário, existe alguma maneira de desativar completamente o envio de alertas 'desconhecidos' e seus alertas de recuperação correspondentes?
Responder1
Eu realmente não uso o Munin, mas pelo que vejo, uma unknown_limit
configuração pode ser definida para itens/plugins que define quantas leituras consecutivas malsucedidas devem ocorrer antes de definir um valor como "desconhecido".
Com base no módulo Munin::LimitsOld, o padrão é 3, acho que você deveria tentar definir ou aumentar esse número.
Eu verifiquei isso no Munin 1.4.5.
Responder2
Eu consigo isso fazendo com que o munin notifique, não diretamente aos usuários finais, mas no NAGIOS via NSCA, e fazendo com que o NAGIOS cuide das notificações. Isso significa que posso usar os controles do NAGIOS (muito mais sofisticados) sobre atraso de notificação, frequência, escalonamentos e assim por diante. Sim, o NAGIOS é bastante pesado apenas para ser um mecanismo de notificação, mas você também pode usá-lo para monitoramento qualitativo (em vez de quantitativo).
Responder3
Lembre-se de que um dos grandes benefícios de usar ferramentas de código aberto é que você pode olhar a fonte para ver exatamente o que elas fazem (e mudar o comportamento se não gostar). Uma rápida varredura em LimitsOld.pm mostra que a sugestão de Gábor é a abordagem correta - desconhecido_limit pode ser definido por serviço ou globalmente e apareceu em torno do Munin 1.4.4 (consultehttp://munin-monitoring.org/ticket/828).