
Tengo algunos servidores monitoreados por munin y, con bastante frecuencia, una de una selección de unidades tiene una falla transitoria al leer los datos. Eso me envía dos correos electrónicos, uno que me dice que se desconocen todos los valores y el segundo, cinco minutos después, que me informa que, después de todo, todo está bien.
Hasta donde puedo decir, munin está funcionando como se diseñó aquí, pero me gustaría saber si hay alguna forma de retrasar el envío de la alerta inicial "desconocida" durante un ciclo de actualización, para que no se informen las incógnitas transitorias. Todo lo que está logrando mi configuración actual es entrenarme para ignorar los correos electrónicos de advertencia.
De no ser así, ¿hay alguna forma de desactivar por completo el envío de alertas "desconocidas" y sus correspondientes alertas de recuperación?
Respuesta1
Realmente no uso Munin, pero como veo, unknown_limit
se puede establecer una configuración para elementos/complementos que define cuántas lecturas consecutivas sin éxito deben ocurrir antes de establecer un valor en "desconocido".
Según el módulo Munin::LimitsOld, el valor predeterminado es 3, creo que deberías intentar establecer o aumentar este número.
He comprobado esto en Munin 1.4.5.
Respuesta2
Lo logro haciendo que munin notifique, no directamente a los usuarios finales, sino a NAGIOS a través de NSCA, y haciendo que NAGIOS maneje las notificaciones. Esto significa que puedo usar los controles (mucho más sofisticados) de NAGIOS sobre el retraso de las notificaciones, la frecuencia, las escaladas, etc. Sí, NAGIOS es bastante pesado sólo para ser un motor de notificaciones, pero también puedes usarlo para monitoreo cualitativo (en lugar de cuantitativo).
Respuesta3
Recuerde que uno de los grandes beneficios de utilizar herramientas de código abierto es que puede consultar el código fuente para ver exactamente qué hacen (y cambiar el comportamiento si no le gusta). Un análisis rápido de LimitsOld.pm muestra que la sugerencia de Gábor es el enfoque correcto: desconocido_limit se puede configurar por servicio o globalmente y apareció alrededor de Munin 1.4.4 (verhttp://munin-monitoring.org/ticket/828).