Solución de problemas de congelaciones misteriosas del servidor en Amazon EC2

Solución de problemas de congelaciones misteriosas del servidor en Amazon EC2

Tengo una instancia de Amazon EC2 ejecutando LAMP en Ubuntu Natty/11.04. En tres ocasiones distintas en los últimos meses, dos de las cuales en las últimas dos semanas, el servidor simplemente... se detuvo. Deja de responder y deja de responder a los intentos de conexión (SSH o de otro tipo), pero el panel de control de EC2 aún informa que se está ejecutando. Cada vez tuve que reiniciar la instancia a través de la consola, con la consiguiente pérdida de datos.

Entonces, ahora estoy tratando de diagnosticar el problema, pero no hago nada y necesito consejos sobre qué más verificar. Syslog no contiene nada sospechoso: en cada ocasión, lo último que sucedió fue que Munin ejecutara su cronjob habitual de cinco minutos, aunque como no sé exactamente cuándo dejó de funcionar la máquina, no puedo decir qué tan cerca está el registro cron. hasta el punto de congelarse. Después de eso, es como si la máquina simplemente no estuviera funcionando hasta el momento en que se reinició, después de lo cual syslog contiene lo que me parece una salida dmesg normal.

No parece haber correlación entre el volumen de tráfico y el momento de estas congelaciones. Cada ocasión ha estado muy alejada de las horas pico de tráfico.

¿Qué más puedo mirar para intentar descubrir qué ha estado causando estos problemas? ¿Cuál podría ser el problema?

ADENDA: El servidor no estaba bajo una gran carga en ningún momento cuando dejó de funcionar. El uso de CPU y memoria estaba bien y de forma segura dentro de los límites. Había mucho espacio libre en disco (decenas de gigabytes). Tampoco hay nada extraño en los registros de Apache o MySQL, simplemente dejan de funcionar en ese momento. Esta es una instancia de CPU media/alta.

Respuesta1

Lo primero que debe hacer es configurar algún tipo de monitoreo para informarle cuando el servidor deja de responder. Puede hacer esto usando pingdom y/o cloudwatch para verificar el tiempo de actividad del servicio y las estadísticas del sistema, como la CPU y la RAM. Ambos tienen planes gratuitos para cuentas pequeñas. Esto le permitirá tener una idea de cuándo cae y debería facilitar la búsqueda de registros para saber qué estaba sucediendo en ese momento. Por lo general, algo como esto podría deberse a que el sistema no tiene suficientes recursos, no menciona cuál es el tamaño de su instancia, pero algo como un micro podría simplemente vincular el 100% de la CPU mediante un simple trabajo cron y en ese momento el servidor simplemente se bloquea. .

También verifique otros registros además de syslog, verifique todos los registros de aplicaciones para ver si alguno de ellos arroja un error antes de que su sistema se caiga.

Respuesta2

Podría ser una NIC defectuosa en la máquina host.

información relacionada