
Tengo un servidor que realiza múltiples tareas con el tráfico que llega a él.
Últimamente el servidor ha estado tartamudeando. Cuando el sistema se ahoga, se reinicia; esto me deja con poca información significativa sobre la patología del asfixia (esto definitivamente no es un bloqueo violento).
¿Qué herramienta en su experiencia le ayudó a preservar datos significativos sobre un estrangulamiento del sistema?
Podría ser el consumo de memoria, "ps", "top" o cualquier otro parámetro.
Eso sí, un script que simplemente genera varios comandos largos (ps -a) de vez en cuando puede utilizar un almacenamiento masivo y ser difícil de analizar.
Respuesta1
Instale SAR, proporciona una instantánea de los datos cada 10 minutos de forma predeterminada, pero puede cambiar la velocidad de la información mediante el trabajo cron.
Proporcionará muchos datos útiles, como memoria, uso de la CPU de carga y estadísticas de E/S del disco.
Respuesta2
necesita un análisis histórico de los parámetros más comunes del sistema, recomendaría MUNIN, que proporciona gráficos de los recursos más comunes del sistema a través de la web, que puede monitorear constantemente para ver qué proceso/qué servicio bloquea los recursos y qué recurso.
Después de eso, recomendaría seguir -f los archivos de registro del sistema, que es lo que causa este problema.
Respuesta3
A veces siento que el SAR es un poco inadecuado. Me he encontrado con casos en los que necesita una imagen completa de lo que sucede en su sistema. Comandos como top, ps, vmstat, netstat, iostat, iotop resultan útiles en ese caso. Generalmente registro las salidas de estos comandos en un archivo. Ahora bien, si el espacio es una limitación para usted, existe un servicio llamadoSeaLion
que ejecuta todos los comandos anteriores y los almacena en la nube. Puede acceder a estos datos desde su navegador.
También me gustaría mencionar otros servicios como Nagios
, Munin
, New Relic
, Server density
que también recopila estadísticas de su máquina, que pueden resultar útiles al depurar un problema.