Pérdida de memoria en el servidor web

Question

Aumente sar y genere la tabla ps cada minuto. Ver mi respuesta detalladaaquí.

La próxima vez que el servidor explote, utilícelo sar -rpara ayudar a localizarcuandoocurrió. Ahora use la salida de ps-cronjob o de micontenedor de perl para ps en github, para descubrir qué proceso puede haber sido el culpable.

Digamos que el servidor explotó entre las 12:00:00 y las 13:00:00. Usar sar -r -s 12:00:00 -e 13:00:00. A partir de esto deberías ver un aumento en los datos. (Si es más fácil, hay una utilidad basada en Java para hacer gráficos, pero normalmente no vale la pena). Digamos que ves un pico (o un mínimo) a las 12:15. Ahora escanee la salida ps en columnas para un rango de tiempo entre, digamos, 12:00 y 12:15, ordénela por pid y luego por hora, y observe las columnas de memoria:

awk '/^=== .* 12:00:/,/^=== .* 12:16:/' /var/log/sa/ps/today |
 sort -k 1n -k 16

(Las opciones de clasificación suponen que la hora está en la columna 16, lo que puede ser el caso o no). Ahora puedes filtrar esa salida a través de awk nuevamente para encontrar diferencias entre las líneas de salida:

... | awk 'lastpid && lastpid==$1 && last != $0 { print} /^[0-9]/ { lastpid=$1;last=$0; }'

Ese es un filtro bastante tosco. Para algunos procesos (cuya línea de comando cambia todo el tiempo, como con mysql, postgresql y snmpd), esto no será muy útil, pero con suerte podrás modificar el awk para ayudarte a encontrar a los culpables.

Answer 1