Qué incluir en un script de monitoreo del servidor LAMP

Qué incluir en un script de monitoreo del servidor LAMP

Tenemos varios servidores LAMP y cada uno ejecuta un script especial que escribimos para informar sobre varias métricas del sistema. El informe se publica diariamente y la idea es poder hacer un recorrido rápido y detectar cualquier problema potencial en el sistema.

Cada servidor LAMP ejecuta RedHat Enterprise y aloja entre 40 y 50 (y en aumento) sitios web públicos cada uno (una combinación de HTML, PHP personalizado y sitios Drupal).

Esto es lo que incluye actualmente el script:

  1. Carga del servidor y usuarios conectados
  2. Últimos 10 inicios de sesión y tiempos
  3. Uso del disco
  4. Últimas 10 líneas de varios registros (qmail, mysql, seguro, error de apache, paquete)
  5. nombre de usuario, puerto y hora del último inicio de sesión para cada cuenta
  6. volcado superior

El informe ya es largo, por lo que me interesa que sea lo más breve posible.

¿Ha encontrado otras métricas importantes para incluir en dicho script? ¿Eliminarías alguno de esta lista?

Gracias, equipo.

j

Respuesta1

Haría pruebas para asegurarme de que su entorno sea sano. Pruebe que PHP se esté ejecutando correctamente (escriba un script PHP simple que refleje algo, consígalo, asegúrese de haber recibido lo que esperaba), su base de datos (simplemente conéctese y asegúrese de poder ver las bases de datos), etc.

Además, si está utilizando SSL en ellos, verifique que el certificado esté vencido, haya cambios inesperados, etc.

Respuesta2

Recomendaría utilizar una herramienta de recopilación automatizada comocactusque recopilará e informará sobre varias métricas a lo largo del tiempo. Esto le permitirá detectar fácilmente tendencias y planificar el futuro. Hay un excelente libro de John Allspaw llamadoEl arte de la planificación de la capacidadque entra en este tema con gran detalle. Lo recomiendo encarecidamente a cualquiera que necesite realizar un seguimiento de las métricas en los servidores.

Respuesta3

Mi consejo sería no informar ninguna de esas cosas de forma rutinaria. Estará inundado de información y la naturaleza humana dicta que cuando surge un problema, es posible que lo pase por alto.

En su lugar, informe solo cuando una de esas variables sea anormal. Quizás incluso con más frecuencia durante el día. Puede utilizar un sistema de seguimiento y gráficos como Cacti, que le alertará sobre dichos cambios y mantendrá datos históricos para referencia futura.

Respuesta4

Realmente desea tener un seguimiento constante. Usamos Nagios para verificar cada uno de nuestros servidores web varias veces por minuto para asegurarnos de que todavía estén funcionando. También monitoreamos nuestras bases de datos y cualquier otra cosa que se nos ocurra. Con el tiempo, tendrás cortes y descubrirás cosas que deberías haber monitoreado.

El otro lado del seguimiento es una especie de gráfico. Usamos Munin, pero los cactus o ganglios son soluciones comunes. Hacer gráficos es invaluable para detectar tendencias en su sistema.

información relacionada