
En ocasiones, los servicios y el host dejan de responder debido a un rendimiento deficiente del servidor. Quiero decir, si por alguna razón (podría ser un gran acceso a servicios concurrentes, una costosa ejecución de respaldo en el servidor o cualquier cosa que consuma toneladas de recursos del servidor) el rendimiento de un servidor está muy degradado, eso podría llevar a que el servidor no sea capaz de establecer cualquier "comunicación de red normal" (sin activar los tiempos de espera estándar definidos para dicha comunicación).
Conocer los datos de rendimiento del host (cpu, memoria, ...) en caso de que estén disponibles durante ese período (el host no está inactivo y, a pesar de su degradación del rendimiento, todavía permite que los complementos recopilen datos de rendimiento) podría ser muy útil para que el administrador del sistema intente determinar la causa. el problema, o al menos, si el rendimiento del host fue bueno y no interfirió en absoluto en la caída del host/servicio.
Este problema podría resolverse utilizando remoto activo (NRPE) o remoto pasivo (NSCA) si dichas soluciones remotas pudieran almacenar (en buffer) datos de rendimiento para enviarlos al servidor central de Nagios cuando el rendimiento del host o la interrupción de la red lo permitan. Leí el documento de ambas soluciones y no puedo encontrar ninguna referencia a dicho mecanismo de búfer ni a lo que sucedió en caso de que NSCA no pueda comunicarse con el servidor de Nagios.
¿Alguna idea de cómo solucionar esta falta de información? tan útil para el análisis forense.
EDITAR:
Mi pregunta es sobre qué herramientas puedo usar para depurar problemas de rendimiento o recopilar datos de rendimiento para analizarlos, pero se refiere a cómo recopilar (usando Nagios) datos de rendimiento del host incluso durante una interrupción de la red para su posterior análisis (una especie de análisis forense). La idea es integrar dichos datos a los graficadores de Nagios como pnp4nagios y NagiosGrapther. Sé que podría instalar herramientas como Cacti en cada uno de mis hosts y tener una especie de redundancia en la recopilación de datos de rendimiento, pero realmente quiero evitar eso e intentar resolver todos los requisitos de análisis de rendimiento con una sola herramienta: Nagios.
Respuesta1
No estoy seguro acerca de Nagios, pero si puede iniciar sesión en el servidor, recopilará los detalles a continuación, que le ayudarán a reducir el problema. Con la ayuda del siguiente comando, puede identificar quién está consumiendo más CPU y memoria. ¿O el sistema está en condiciones OOM?
top -n 5 -b
vmstat 1 50
iostat -x 2 10
ps -aufx
sar 1 50
cat /proc/meminfo
cat /proc/buddyinfo