Promedio de carga inactiva del servidor Ubuntu 14.04.1 1,00

Promedio de carga inactiva del servidor Ubuntu 14.04.1 1,00

Rascándome la cabeza aquí. Espero que alguien pueda ayudarme a solucionar el problema.

Tengo un servidor Dell PowerEdge SC1435 que se ha estado ejecutando con una versión anterior de ubuntu durante un tiempo. (Creo que era el servidor 13.10 x64)

Recientemente reformateé la unidad (SSD) e instalé el servidor ubuntu 14.04.1 x64.

Todo parecía estar bien durante la instalación, pero la máquina se colgó en el primer arranque al final de la salida del kernel, justo antes de que esperara que la pantalla se borrara y apareciera un mensaje de inicio de sesión. No hubo errores obvios al final de la salida del kernel que vi. (Había un mensaje sobre "no usar el sensor térmico de la CPU que no es confiable", pero parece estar ahí independientemente de si arranca o no)

Le di unos buenos 5 minutos y luego forcé un reinicio. Para mi sorpresa, se inició en el mensaje de inicio de sesión aproximadamente 1 o 2 segundos después de la publicación de la BIOS. Reinicié nuevamente y pareció detenerse por unos segundos adicionales donde antes se quedaba colgado, pero procedí a la pantalla de inicio de sesión. Al reiniciar nuevamente, volvió a ser rápido. Entonces, en este punto pensé que era solo uno de esos fallos aleatorios y únicos que nunca explicaría, así que seguí adelante.

Instalé algunos paquetes (exactamente los mismos paquetes instalados en la misma versión del sistema operativo en otro hardware), actualicé apt y dist-upgrade y luego reinicié. Pareció colgarse de nuevo, así que conduje hasta el centro de datos y conecté una consola solo para ver una pantalla en blanco. Reinicio forzado nuevamente. (¡También configuré ipmi para el reinicio remoto y eliminé el error de registro de grub para que no esperara a que presionara Enter!)

Eso fue anoche muy tarde. Llegué a casa, reinicié algunas veces sin problemas, así que me fui a la cama. Hoy reinicié nuevamente para verificarlo y nuevamente falló en alguna parte. Lo obligué a reiniciarlo de forma remota.

En este punto comencé a investigar un poco más e inmediatamente noté algo realmente extraño.

top - 14:18:35 up 8 min,  1 user,  load average: 1.00, 0.85, 0.45
Tasks: 148 total,   1 running, 147 sleeping,   0 stopped,   0 zombie
%Cpu(s):  0.1 us,  0.3 sy,  0.0 ni, 99.6 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem:  33013620 total,   338928 used, 32674692 free,     9740 buffers
KiB Swap:  3906556 total,        0 used,  3906556 free.    47780 cached Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
    1 root      20   0   33508   2772   1404 S   0.0  0.0   0:03.82 init
    2 root      20   0       0      0      0 S   0.0  0.0   0:00.00 kthreadd
    3 root      20   0       0      0      0 S   0.0  0.0   0:00.00 ksoftirqd/0
    5 root       0 -20       0      0      0 S   0.0  0.0   0:00.00 kworker/0:0H
    6 root      20   0       0      0      0 S   0.0  0.0   0:00.00 kworker/u16:0
    8 root      20   0       0      0      0 S   0.0  0.0   0:00.24 rcu_sched
    9 root      20   0       0      0      0 S   0.0  0.0   0:00.02 rcuos/0
   10 root      20   0       0      0      0 S   0.0  0.0   0:00.00 rcuos/1
   11 root      20   0       0      0      0 S   0.0  0.0   0:00.00 rcuos/2

Este servidor está completamente inactivo y sin uso, pero tiene un promedio de carga de 1 minuto de exactamente 1,00? Mientras observo los otros valores, los minutos de 5 y 15 también parecen encaminarse hacia 1,00, por lo que supongo que todos alcanzarán 1,00 en algún momento. (El "1 en ejecución" es el proceso superior)

Nunca había tenido esto antes y como no tengo idea de qué está causando el bloqueo del inicio, asumo en este punto que es probable que ambos estén relacionados.

Lo que me gustaría hacer es identificar (y, con suerte, eliminar) qué está causando ese promedio de carga falso y mi problema de bloqueo.

Hasta ahora no he podido identificar qué proceso podría estar esperando que un recurso de algún tipo genere ese promedio de carga.

Le agradecería mucho si alguien pudiera ayudarme a intentar localizarlo.

La parte superior muestra todos los procesos prácticamente siempre inactivos. Algunos aparecen ocasionalmente en la parte superior, pero creo que es bastante normal. El uso de la CPU muestra principalmente un 100% INACTIVO, con caídas muy ocasionales hasta aproximadamente el 99%.

nmon no me muestra mucho. todo parece inactivo.

iotop prácticamente no muestra tráfico alguno. (nuevamente, puntos muy ocasionales de acceso al disco)

La frecuencia de interrupción parece baja. muy por debajo de 100/seg por lo que puedo ver.

Vi numerosas discusiones en Google que sugerían esto:

echo 100 > /sys/module/ipmi_si/parameters/kipmid_max_busy_us

..sin efecto.

La RAM en el servidor es ECC y la prueba pasa.

La instalación del servidor fue "mínima" (opción F4) con el servidor OpenSSH marcado durante la instalación. Luego instalé algunos paquetes, incluidos vim, bcache-tools, bridge-utils, qemu, software-properties-common, open-iscsi, qemu-kvm, cpu-checker, socat, ntp y nodejs. (Creo que eso es todo)

Intenté deshabilitar y eliminar el módulo del kernel bcache. sin efecto. Servicio iscsi detenido... sin efecto. (aunque todavía no hay absolutamente nada configurado en este servidor)

Lo dejaré ahí antes de que esto se alargue muchísimo. Si alguien pudiera ayudarme a intentar resolver esto, se lo agradecería mucho.

Salud,

Jaime

información relacionada