Fallo del servidor Ubuntu 10.04

Fallo del servidor Ubuntu 10.04

Estoy ejecutando Ubuntu 10.04 (x64) como servidor web/mysql.

El servidor dejó de responder a SSH, Ping, HTTP, etc. y el técnico con acceso físico a la máquina me envió esta captura de pantalla aquí:

http://img442.imageshack.us/img442/389/img00062201012211332.jpg

desde el monitor conectado antes de reiniciar (y la situación está solucionada). No estoy seguro de en qué registro se guarda esta información, ya que no puedo encontrar el texto después de verificar los registros después del reinicio.

¿Alguien puede ayudarme a investigar qué pasó para intentar asegurarme de que no vuelva a suceder?

Gracias

Respuesta1

El pánico del kernel puede deberse a varias razones, generalmente un problema de módulo (un controlador que no se adapta a su hardware) o un problema de hardware.

En su caso, si el problema no se repite es más probable que sea de origen del hardware.
Y podría ser el recuerdo (el mal recuerdo no siempre es fácil de identificar).

Arrancaría el servidor y elegiría durante la pantalla de grub (justo después de arrancar) la opción "memtest86". La prueba de memoria debe realizarse durante varios días seguidos.
Si después de 3 días no hay ningún error, la memoria setal vezOK.

Respuesta2

Si no tiene otra información (como dijo ring0, no se guardará en ningún lugar del disco), entonces no hay nada más que pueda hacer.

Si desea ser proactivo, o si sucede aleatoriamente unas cuantas veces más, puede probar LKCD para capturar un volcado de núcleo. http://lkcd.sourceforge.net/

No sé cuánta RAM tienes, pero incluso probar memtest86 durante un par de horas podría resultar beneficioso. Obviamente, no detectará errores realmente raros.

También le sugiero que agregue kernel.panic=5 /etc/sysctl.conf. Eso hará que el servidor se reinicie automáticamente después de 5 segundos si el kernel se bloquea nuevamente.

Por último, creo que siempre se debe tener algún tipo de gestión de luces apagadas. Luego, puede iniciar sesión, copiar el mensaje y reiniciar el servidor usted mismo.

Respuesta3

He visto fallas de este tipo cuando los servidores se ejecutaban con una carga demasiado alta o demasiados procesos durante un período de tiempo prolongado. Para comprobar en general lo que está sucediendo en su máquina, recomiendo instalar un marco de monitoreo como munin en su servidor, que ayudará al análisis en caso de que esto vuelva a suceder.

Respuesta4

Esto puede sonar un poco extraño, pero tuve problemas con Ubuntu x64 ejecutándose en un servidor de 64 bits. Tuve estos mismos errores y problemas posteriores de "congelación" muy a menudo. Intentó eliminar controladores, volver a agregarlos, pasó horas revisando errores y nada ayudó. Finalmente lo resolví instalando una versión de 32 bits de Ubuntu. Funcionó, no necesitaba 64 bits, así que lo dejé funcionar. Esta no es una buena solución si necesita 64 bits, pero podría brindarle un camino para explorar un poco. Tal vez busque el servidor en el que ejecuta Ubuntu y vea si existen problemas de compatibilidad. Buena suerte.

información relacionada