
Tengo un problema con un sistema debian. Hoy exactamente a las 04:00 dejó de responder a nagios. Tampoco puedo iniciar sesión a través de SSH. No es la primera vez que esto sucede, pero sí la primera vez que lo veo con nagios.
Hay una cosa especial y poco común en esta caja: arranca desde una memoria USB. Por eso pensé que era una buena idea asignar /var /tmp a tmpfs.
Estoy bastante seguro de que si lo reinicio, funcionará nuevamente. Pero debido a que /var/log está asignado a la memoria, no puedo leer los registros después del reinicio.
El siguiente problema es que el hardware está fuera del sitio, por lo que no puedo iniciar sesión localmente.
Al principio el problema podría ser que el tmpfs se esté llenando. Pero Nagios no avisó antes de que ya no pudiera conectarse. He establecido el umbral de advertencia en 90% de espacio libre. Así que no parece ser así.
Otros síntomas quizás interesantes:
- el servidor openVPN sigue funcionando
- el enrutamiento todavía funciona
- el puerto SSH sigue abierto y me piden el nombre de usuario. Pero si proporciono la contraseña, la conexión se corta.
- El puerto 80 está abierto, pero Apache no responde.
La pregunta que más me interesa es: ¿Qué podría hacer un sistema debian a las 04:00 de la mañana? ¿Algún tipo de verificación de actualización?
Agradezco cualquier idea o sugerencia en la dirección correcta. ¿Hay algo que valga la pena monitorear con nagios para obtener una pista? La próxima vez agregaré el monitoreo del uso del intercambio.
Respuesta1
Hemos tenido esto en el que el servidor se había quedado sin memoria. Todos los procesos en ejecución continuarían, pero la asignación de nuevos procesos podría fallar.
Si está monitoreando el uso de la memoria, esto podría responder la pregunta. También puedes intentar iniciar sesión de forma remota.
Sin embargo, para responder a su pregunta, consulte su /etc/cron.daily: estos scriptspuedecorrer a las 4 am. También puede consultar /etc/cron.d/ y /etc/crontab para ver si hay tareas programadas.