média de carga ociosa do servidor Ubuntu 14.04.1 1,00

média de carga ociosa do servidor Ubuntu 14.04.1 1,00

Coçando a cabeça aqui. Esperando que alguém possa me ajudar a solucionar o problema.

Eu tenho um servidor Dell PowerEdge SC1435 que está rodando com uma versão anterior do Ubuntu há algum tempo. (Acredito que era o servidor 13.10 x64)

Recentemente reformatei a unidade (SSD) e instalei o servidor Ubuntu 14.04.1 x64.

Tudo parecia bem durante a instalação, mas a máquina travou na primeira inicialização no final da saída do kernel, pouco antes de eu esperar que a tela fosse limpa e um prompt de logon aparecesse. Não houve erros óbvios no final da saída do kernel que vi. (Havia uma mensagem sobre "não usar sensor térmico da CPU que não é confiável", mas parece estar lá independentemente de inicializar ou não)

Aguardei uns bons 5 minutos e forcei a reinicialização. Para minha surpresa, ele inicializou no prompt de logon cerca de 1-2 segundos após a postagem do BIOS. Reiniciei novamente e ele pareceu pausar por alguns segundos extras onde estava travado antes, mas prossegui para a tela de login. Reinicializando novamente, foi rápido novamente. Então, nesse ponto, pensei que era apenas uma daquelas falhas aleatórias que eu nunca explicaria, então segui em frente.

Instalei alguns pacotes (exatamente os mesmos pacotes instalados na mesma versão do sistema operacional em outro hardware), fiz o apt upgrade e o dist-upgrade e depois reiniciei. Parecia travar novamente, então dirigi até o datacenter e conectei um console apenas para obter uma tela em branco. Reinicialização forçada novamente. (também configurei o ipmi para reinicialização remota e me livrei do grub recordfail para que ele não esperasse que eu pressionasse enter!)

Isso foi muito tarde ontem à noite. Cheguei em casa, fiz algumas reinicializações sem problemas e fui para a cama. Hoje reiniciei novamente para verificar e novamente travou em algum lugar. Eu forço remotamente a reinicialização.

Nesse ponto comecei a cavar um pouco mais e imediatamente notei algo realmente estranho.

top - 14:18:35 up 8 min,  1 user,  load average: 1.00, 0.85, 0.45
Tasks: 148 total,   1 running, 147 sleeping,   0 stopped,   0 zombie
%Cpu(s):  0.1 us,  0.3 sy,  0.0 ni, 99.6 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem:  33013620 total,   338928 used, 32674692 free,     9740 buffers
KiB Swap:  3906556 total,        0 used,  3906556 free.    47780 cached Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
    1 root      20   0   33508   2772   1404 S   0.0  0.0   0:03.82 init
    2 root      20   0       0      0      0 S   0.0  0.0   0:00.00 kthreadd
    3 root      20   0       0      0      0 S   0.0  0.0   0:00.00 ksoftirqd/0
    5 root       0 -20       0      0      0 S   0.0  0.0   0:00.00 kworker/0:0H
    6 root      20   0       0      0      0 S   0.0  0.0   0:00.00 kworker/u16:0
    8 root      20   0       0      0      0 S   0.0  0.0   0:00.24 rcu_sched
    9 root      20   0       0      0      0 S   0.0  0.0   0:00.02 rcuos/0
   10 root      20   0       0      0      0 S   0.0  0.0   0:00.00 rcuos/1
   11 root      20   0       0      0      0 S   0.0  0.0   0:00.00 rcuos/2

Este servidor está completamente sem uso e ocioso, mas tem uma média de carga de 1 minuto de exatamente 1,00? Enquanto observo os outros valores - os 5 minutos e os 15 minutos também parecem estar caminhando para 1,00, então presumo que todos chegarão a 1,00 em algum momento. (O "1 Running" é o processo principal)

Eu nunca tive isso antes e como não tenho ideia do que está causando o travamento da inicialização, presumo neste momento que os dois provavelmente estão relacionados.

O que eu gostaria de fazer é identificar (e, com sorte, eliminar) o que está causando essa falsa média de carga e meu problema de travamento.

Até agora não consegui identificar qual processo poderia estar aguardando algum tipo de recurso para gerar essa média de carga.

Eu apreciaria muito se alguém pudesse me ajudar a tentar rastreá-lo.

top mostra todos os processos praticamente sempre dormindo. Alguns ocasionalmente aparecem no topo, mas acho que isso é bastante normal. O uso da CPU mostra principalmente 100% IDLE, com quedas muito ocasionais para 99% ou mais.

nmon não me mostra muito. tudo parece ocioso.

iotop praticamente não mostra nenhum tráfego. (novamente, pontos muito ocasionais de acesso ao disco)

a frequência de interrupção parece baixa. muito abaixo de 100/s pelo que posso ver.

Eu vi inúmeras discussões no Google sugerindo isso:

echo 100 > /sys/module/ipmi_si/parameters/kipmid_max_busy_us

..nenhum efeito.

A RAM no servidor é ECC e passa no teste.

A instalação do servidor foi 'mínima' (opção F4) com o servidor OpenSSH marcado durante a instalação. Posteriormente, instalei alguns pacotes, incluindo vim, bcache-tools, bridge-utils, qemu, software-properties-common, open-iscsi, qemu-kvm, cpu-checker, socat, ntp e nodejs. (Acho que é isso)

Tentei desabilitar e remover o módulo do kernel bcache. nenhum efeito. serviço iscsi interrompido.. sem efeito. (embora ainda não haja absolutamente nada configurado neste servidor)

Vou deixar isso aí antes que fique absurdamente longo. Se alguém pudesse me ajudar a tentar descobrir isso, seria muito apreciado.

Saúde,

James

informação relacionada