CPU 100% intermitente em todas as VMs

CPU 100% intermitente em todas as VMs

Somos uma pequena loja, executando um Dell T420 (CPU dupla, apenas uma presente, 6 núcleos) com 32 GB de RAM como servidor principal. Temos apenas 5 VMs, uma das quais é nosso WSE 2012 DC.

De tempos em tempos, e em uma taxa para a qual não conseguimos estabelecer um padrão confiável, todas as nossas VMs atingem simultaneamente 100% da CPU. O host permanece quieto em 4-5%. Uma inicialização a quente do host não oferece alívio, mas uma inicialização a frio pelo menos coloca as coisas de volta na caixa até que o problema ocorra novamente.

Às vezes podemos obter uma semana ou mais de mar calmo; às vezes apenas um dia. Um padrão não confiável parece ser o início em algum momento durante um período de inatividade prolongado, ou seja, durante a noite. Um exame dos registros de temperatura do servidor primeiro nos levou a suspeitar de superaquecimento, mas investigações mais aprofundadas sobre incidentes recentes estragaram essa pista.

Também encontramos descrições de problemas semelhantes nos fóruns da Dell, com reivindicações de resolução instalando a última rodada de atualizações da Dell. Recentemente, nos envolvemos em um projeto para fazer exatamente isso (além disso, foi uma grande aventura tirar ~ 700 GB de VHDs com segurança e depois colocá-los de volta naquela máquina), mas para nossa total consternação, isso não ajudou.

Estamos absolutamente confusos. O mesmo acontece com o suporte da Microsoft (ou pelo menos o suporte de primeiro nível, mesmo que eles tentem não agir como tal). Estou incluindo abaixo nossa saída SystemInfo.

Alguém sabe por onde começar a procurar?

Obrigado

==================================

Nome do host: SERVER1
Nome do sistema operacional: Microsoft Hyper-V Server 2012 R2
Versão do sistema operacional: 6.3.9600 N/A Build 9600
Fabricante do sistema operacional: Microsoft Corporation
Configuração do sistema operacional: servidor autônomo
Tipo de compilação do sistema operacional: multiprocessador gratuito
Proprietário registrado: usuário do Windows
Organização registrada:   
ID do produto: 06401-029-0000043-76293
Data de instalação original: 03/04/2014, 16h07min15s
Horário de inicialização do sistema: 04/05/2014, 13h56min47s
Fabricante do sistema: Dell Inc.
Modelo do sistema: PowerEdge T420
Tipo de sistema: PC baseado em x64
Processador(es): 1 Processador(es) instalado(s).
                           [01]: Intel64 Família 6 Modelo 45 Etapa 7 GenuínoIntel ~2200 Mhz
                           [CPU Intel(R) Xeon(R) E5-2430 0 @ 2,20 GHz] (adicionado manualmente)
Versão do BIOS: Dell Inc. 2.1.2, 20/01/2014
Diretório do Windows: C:\Windows
Diretório do sistema: C:\Windows\system32
Dispositivo de inicialização: \Device\HarddiskVolume1
Local do sistema: en-us;Inglês (Estados Unidos)
Local de entrada: en-us;Inglês (Estados Unidos)
Fuso horário: (UTC-09:00) Alasca
Memória física total: 32.723 MB
Memória física disponível: 12.716 MB
Memória virtual: Tamanho máximo: 37.587 MB
Memória Virtual: Disponível: 17.129 MB
Memória virtual: em uso: 20.458 MB
Locais do arquivo de página: C:\pagefile.sys
Domínio: OIT
Servidor de logon: \\SERVER1
Hotfix(es): 31 Hotfix(es) instalados.
                           [01]: KB2843630
                           [02]: KB2862152
                           [03]: KB2868626
                           [04]: KB2876331
                           [05]: KB2883200
                           [06]: KB2884846
                           [07]: KB2887595
                           [08]: KB2892074
                           [09]: KB2893294
                           [10]: KB2894179
                           [11]: KB2898514
                           [12]: KB2898871
                           [13]: KB2901101
                           [14]: KB2901128
                           [15]: KB2903939
                           [16]: KB2904266
                           [17]: KB2908174
                           [18]: KB2909210
                           [19]: KB2911106
                           [20]: KB2913760
                           [21]: KB2916036
                           [22]: KB2917929
                           [23]: KB2919394
                           [24]: KB2919442
                           [25]: KB2922229
                           [26]: KB2923300
                           [27]: KB2923768
                           [28]: KB2928193
                           [29]: KB2928680
                           [30]: KB2930275
                           [31]: KB2939087
Placa(s) de rede: 3 NIC(s) instalada(s).
                           [01]: Broadcom NetXtreme Gigabit Ethernet
                                 Nome da conexão: NIC1
                                 DHCP habilitado: Não
                                 Endereço(s) IP
                           [02]: Broadcom NetXtreme Gigabit Ethernet
                                 Nome da conexão: NIC2
                                 DHCP habilitado: Sim
                                 Servidor DHCP: 192.168.1.12
                                 Endereço(s) IP
                                 [01]: 192.168.1.135
                                 [02]: fe80::915b:8de0:712e:29f1
                           [03]: Adaptador Ethernet Virtual Hyper-V
                                 Nome da conexão: vEthernet (NIC externa 1_Internal)
                                 DHCP habilitado: Não
                                 Endereço(s) IP
                                 [01]: 192.168.1.11
                                 [02]: fe80::2d35:f582:4958:9eb2
Requisitos do Hyper-V: Um hipervisor foi detectado. Os recursos necessários para o Hyper-V não serão exibidos.

== EDITAR ======================

Encontrei a solução para este problema; Esperei mais de um ano para ter certeza de que não encontraríamos mais nenhum caso do problema.

Moderadores: Gostaria de solicitar a reabertura da pergunta, para poder postar a resposta.

Responder1

Depois de mais de um ano de espera para provar a validade da solução, finalmente consigo postar esta resposta.

As configurações padrão do BIOS da Dell têm C-States ativados, o que coloca o computador no modo de baixo consumo de energia durante os períodos de inatividade. Isso é o que faz com que as VMs cheguem a 100% de uso da CPU em um host hipervisor (VMWare, Citrix incluído).

A solução é definir a configuração do Perfil do Sistema no BIOS para Desempenho, em vez de Desempenho por watt [OS] ou Desempenho por watt [DAPC] (sendo este último o padrão).

A documentação relevante da Dell, pp3:

http://en.community.dell.com/techcenter/extras/m/white_papers/20161975/download

E esta resposta de um dos poucos engenheiros de suporte da Dell familiarizados com o problema:

A versão resumida é: C-States desativam núcleos de processador adicionais durante tempos de inatividade. Para VMs vinculadas a um núcleo (isso é controlado pelo sistema operacional, não acredito que seja configurável), isso pode resultar no bloqueio delas, pois estão tentando executar ações com recursos que não existem mais aos seus olhos.

De modo geral, C-States são geralmente usados ​​em itens como servidores de backup, servidores de função secundária (DNS de backup, dhcp, controladores de domínio, etc.) para que os servidores de backup possam permanecer ligados, mas em modo de baixo consumo para economizar energia.

Documentação adicional pode ser encontrada aqui:

http://en.wikipedia.org/wiki/Advanced_Configuration_and_Power_Interface

Resumindo, a inatividade em um servidor Dell deve sempre ser desligada (definida como Desempenho) para hosts hipervisores.

Obrigado a Eddy Simons do Kitsap Bank por me ajudar a encontrar esta solução.

Responder2

Não está claro qual é o problema; você já sabe disso. Não temos chance de lhe dizer qual é a causa.

No entanto, você pode executar alguns testes:

  • Construir VM 1

    • Execute uma tarefa com uso intensivo de CPU nesta VM constantemente
      (realize milhões de cálculos matemáticos complexos por segundo)
  • Construir VM 2

    • Execute uma tarefa com uso intensivo de RAM nesta VM constantemente
      (crie um array gigante na memória, exclua-o, repita)
  • Construir VM 3

    • Execute uma tarefa intensiva de DISK nesta VM constantemente
      (leia/escreva/exclua milhões de linhas de/para um arquivo)
  • Construir VM 4

    • Execute uma tarefa intensiva de REDE nesta VM constantemente
      (copiar arquivos de/para um compartilhamento SMB)

Aguarde até que o problema ocorra novamente e observe os dados de desempenho de cada um desses servidores.
Qual foi mais afetado?
Algum deles não foi afetado?

Meu palpite é que seus discos são uma droga e a CPU está aguardando a conclusão das operações de IO antes de continuar, o que pode fazer com que alguns aplicativos nivelem a CPU.

Responder3

Que bom que encontrei isso. Eu tenho um servidor 2012R2 executando o Hyper-v. AMD, processador de 6 núcleos. Estava funcionando perfeitamente há mais de um ano. De repente, comecei a ver VMs às quais não era possível conectar - nem com RDP, nem com conexão Hyper-V. A única opção era DESLIGAR a VM. Desligar não obteve resposta. Então... retire o plugue virtual da parede. Ligar.

O sintoma era que a máquina individual parecia estar usando 100% da CPU alocada (ex: uma VM de um núcleo em um host de seis núcleos estava fixada em 16%).

O problema era esporádico. Nenhuma rima ou razão aparente.

Finalmente me ocorreu que isso coincidia com minha tentativa fracassada de atualizar de 32 para 64 GB naquela mobo. ESSE problema era que eu conseguia fazer com que 1, 2 ou 3 unidades de memória de 16 GB funcionassem para 16, 32 ou 48 GB, mas não quatro unidades para 64 GB. Muita brincadeira com as configurações do BIOS, etc. Nenhuma alegria nesse aspecto. Foi quando descobri o maravilhoso recurso da VM para ativar memória dinâmica. Acontece que eu poderia sobreviver sem os 64 shows, afinal!!

Suponho que ativei o gerenciamento de energia da CPU durante meus ajustes e então esse problema apareceu.

Desativei o APM na BIOS. Levará alguns dias até que eu tenha 60% de certeza de que isso resolveu o problema. Algumas semanas para declarar vitória. Mas isso parece uma boa razão para o problema.

Já se passaram 24 horas e até agora tudo bem.

Dedos cruzados.

Obrigado pela informação!!

informação relacionada