Estou executando o VMWare Server 2.0.2 (Build 203138) em um Intel i5 dual core com sistema Ubuntu Server 10.04 LTS (kernel 2.6.32-22-server #33-Ubuntu SMP
). O subsistema de disco é uma matriz RAID5 de software.
O sistema está configurado há pouco mais de uma semana. Nos últimos 5 dias, executei pelo menos 3 VMs (Linux e uma variedade de sistemas operacionais Windows) sem nenhum problema. Mas enquanto eu estava instalando o Linux em uma nova VM, de repente todas as VMs pararam de responder, incluindo aquela em que eu estava instalando. Não consegui fazer login na interface de gerenciamento do VMWare e o sistema não respondeu via SSH. Quando olhei top
, vi:
top - 16:14:51 up 6 days, 1:49, 8 users, load average: 24.29, 24.33 17.54
Tasks: 203 total, 7 running, 195 sleeping, 0 stopped, 1 zombie
Cpu(s): 0.2%us, 25.6%sy, 0.0%ni, 74.3%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 8056656k total, 5927580k used, 2129076k free, 20320k buffers
Swap: 7811064k total, 240216k used, 7570848k free, 5045884k cached
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
21549 root 39 19 0 0 0 Z 100 0.0 15:02.44 [vmware-vmx] <defunct>
2115 root 20 0 0 0 0 S 1 0.0 170:32.08 [vmware-rtc]
2231 root 21 1 1494m 126m 100m S 1 1.6 892:58.05 /usr/lib/vmware/bin/vmware-vmx -# product=2;
2280 jnet 20 0 19320 1164 800 R 0 0.0 30:04.55 top
12236 root 20 0 833m 41m 34m S 0 0.5 88:34.24 /usr/lib/vmware/bin/vmware-vmx -# product=2;
1 root 20 0 23704 1476 920 S 0 0.0 0:00.80 /sbin/init
2 root 20 0 0 0 0 S 0 0.0 0:00.01 [kthreadd]
3 root RT 0 0 0 0 S 0 0.0 0:00.00 [migration/0]
4 root 20 0 0 0 0 S 0 0.0 0:00.84 [ksoftirqd/0]
5 root RT 0 0 0 0 S 0 0.0 0:00.00 [watchdog/0]
6 root RT 0 0 0 0 S 0 0.0 0:00.00 [migration/1]
O processo VMWare da máquina virtual que eu estava instalando tornou-se um zumbi. Mesmo assim, ele ainda consumia 100% do tempo da CPU em um dos núcleos e não consegui alcançá-lo nem a qualquer outra máquina virtual. (Eu estava logado em uma máquina virtual por SSH, outra via X11 e uma terceira via VNC. Todas as três conexões morreram). Quando executei ps -ef
comandos semelhantes, descobri que o vmware-vmx
processo extinto tinha seu PID pai definido como init
(1). Também usei lsof -p 21549
e descobri que o processo extinto não tinha arquivos abertos. No entanto, estava usando 100% do tempo da CPU ...
Eu não consegui matarqualquer vmware-vmx
processos, inclusive o extinto, mesmo com kill -9
. Como último recurso para resolver a situação, tentei reiniciar a caixa, no entanto shutdown
, halt
, reboot
, e init 6
todos falharam ao reiniciar/desligar, mesmo quando receberam --force
as configurações apropriadas. ControlAltDelproduziu uma mensagem sobre a reinicialização no console, mas o sistema não reinicializou. Tive que desligar e ligar a caixa para resolver a situação. (Veja minha outra pergunta,Devo me preocupar com a integridade do meu software Linux RAID5 após uma falha ou kernel panic?)
O que causaria um cenário como este? O que mais eu poderia ter feito para resolver isso além de uma reinicialização forçada? O que posso fazer para evitar tal situação no futuro?
Responder1
Confira esta postagem do fórum VMWare e veja se isso ajuda: http://communities.vmware.com/message/531884#531884
Desativar o compartilhamento de memória é uma boa ideia em geral se você tiver RAM.
Compilei algumas otimizações que uso para VMWare Server 2 no Ubuntu aqui: http://www.stress-free.co.nz/vmware_server_20_optimisations
Nunca experimentei o problema que você descreveu e estou executando servidores de produção com Ubuntu Server 8.04LTS e 10.04LTS (32 bits e 64 bits).
Responder2
Infelizmente nunca consegui encontrar uma solução para esse problema. Parecia ser um problema inerente ao VMware Server.
Desde então, migramos para VMWare ESXi. É mundos melhor, não há comparação! Nunca tive problemas semelhantes com o ESXi.