
Tengo un servidor nagios que ejecuta Ubuntu con un procesador Intel de 2,0 GHz, una matriz RAID10 y 400 MB de RAM. Supervisa un total de 42 servicios en 8 hosts, la mayoría de los cuales se verifican mediante el complemento check_http incluso durante 5 minutos, algunos cada minuto. Recientemente, la carga en el servidor nagios ha estado por encima de 4, a menudo hasta 6. El servidor también ejecuta cactus, recopilando estadísticas cada minuto para 6 hosts.
Me pregunto, ¿cuántos servicios debería poder manejar un hardware como este? ¿La carga es tan alta porque estoy superando los límites del hardware, o este hardware debería poder manejar 42 comprobaciones de servicio más cactus? Si el hardware es inadecuado, ¿debería agregar más RAM, más núcleos o núcleos más rápidos? ¿Qué comprobaciones de hardware/servicio están ejecutando otros?
Respuesta1
Necesitas descubrir dónde está tu cuello de botella...
Ejecuto un monitor nagios que verifica más de 400 hosts con comprobaciones http, ping y ssh. (junto con muchos otros controles pasivos y nscd)
Esto está en un servidor 2xQuadCore con 4 discos SAS en RAID10.
Sospecho que está teniendo problemas de IO, ya que escribir en muchos rrds es muy ineficiente.
Debe determinar qué proceso está consumiendo sus recursos. (cactus, nagios o algo más)
Para comprobar IO, me gusta iotop. Instale iotop (el paquete 9.04 funciona en 8.04)
Pero por lo demás, la parte superior también debería ayudarte a encontrar tu carga.
Los cactus una vez por minuto son bastante agresivos. (Yo ejecuto el mío a intervalos de 5 m)
Un enfoque del que he oído hablar para la contienda de escritura de rrd es colocar los almacenes de rrd en un disco ram/tmpfs. (asegúrese de sincronizarlo de vez en cuando con el almacenamiento persistente)
Buena suerte.
Respuesta2
A menos que sean cactus los que generen la mayor parte de la carga, entonces debería poder ejecutar muchas más comprobaciones en su hardware.
Estoy ejecutando nagios en una máquina virtual FreeBSD que se ejecuta en Microsoft Virtual Server en una vieja PC muy lenta (Pentium 3 de 1 GHz con un disco PATA lento). La máquina virtual tiene sólo 128 MB de RAM y el rendimiento es terrible.
Sin embargo, el promedio de carga es de aproximadamente 0,2 y se ejecutan 158 comprobaciones en 42 hosts.
Respuesta3
En un PIII antiguo con 256 MB de RAM, estoy monitoreando activamente unos 230 servicios diferentes. La misma máquina también ejecuta MRTG y HylaFAX para todos nuestros faxes entrantes y lo hace con bastante comodidad.
Respuesta4
Debería poder ejecutar una gran cantidad de comprobaciones de nagios con ese hardware. Ejecutamos una configuración similar con aproximadamente 70 comprobaciones y Nagiosgraph; la principal diferencia es la RAM agregada (es barata, por lo que aumentaría la caja a 2 Gb).
Intente ejecutar top o ps -aux para ver si la CPU está sobrecargada, pero lo dudo. Quizás también quieras revisar los nagios.documentos de paralelizaciónpara ver si su instalación intenta ejecutar demasiadas comprobaciones a la vez en lugar de serializarlas.