Warum sollte VMWare nicht mehr funktionieren? Wie kann man das Problem beheben bzw. verhindern?

Warum sollte VMWare nicht mehr funktionieren? Wie kann man das Problem beheben bzw. verhindern?

Ich verwende VMWare Server 2.0.2 (Build 203138) auf einem Dual-Core Intel i5 mit Ubuntu Server 10.04 LTS-System (Kernel 2.6.32-22-server #33-Ubuntu SMP). Das Disk-Subsystem ist ein Software-RAID5-Array.

Das System ist seit etwas mehr als einer Woche eingerichtet. In den letzten 5 Tagen habe ich mindestens 3 VMs (Linux und verschiedene Windows-Betriebssysteme) ohne Probleme ausgeführt. Aber während ich Linux auf einer neuen VM installierte, reagierten plötzlich alle VMs nicht mehr, einschließlich der, auf der ich die Installation durchführte. Ich konnte mich nicht bei der VMWare-Verwaltungsschnittstelle anmelden und das System reagierte über SSH nicht mehr richtig. Als ich nachschaute top, sah ich:

top - 16:14:51 up 6 days,  1:49,  8 users,  load average: 24.29, 24.33 17.54
Tasks: 203 total,   7 running, 195 sleeping,   0 stopped,   1 zombie
Cpu(s):  0.2%us, 25.6%sy,  0.0%ni, 74.3%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:   8056656k total,  5927580k used,  2129076k free,    20320k buffers
Swap:  7811064k total,   240216k used,  7570848k free,  5045884k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                                                                                                                                                                               
21549 root      39  19     0    0    0 Z  100  0.0  15:02.44 [vmware-vmx] <defunct>
 2115 root      20   0     0    0    0 S    1  0.0 170:32.08 [vmware-rtc]
 2231 root      21   1 1494m 126m 100m S    1  1.6 892:58.05 /usr/lib/vmware/bin/vmware-vmx -# product=2;                                                                                                                                                                                       
 2280 jnet      20   0 19320 1164  800 R    0  0.0  30:04.55 top 
12236 root      20   0  833m  41m  34m S    0  0.5  88:34.24 /usr/lib/vmware/bin/vmware-vmx -# product=2;
    1 root      20   0 23704 1476  920 S    0  0.0   0:00.80 /sbin/init                                                                                                                                                                                             
    2 root      20   0     0    0    0 S    0  0.0   0:00.01 [kthreadd]                                                                                                                                                                                             
    3 root      RT   0     0    0    0 S    0  0.0   0:00.00 [migration/0]                                                                                                                                                                                          
    4 root      20   0     0    0    0 S    0  0.0   0:00.84 [ksoftirqd/0]                                                                                                                                                                                          
    5 root      RT   0     0    0    0 S    0  0.0   0:00.00 [watchdog/0]                                                                                                                                                                                           
    6 root      RT   0     0    0    0 S    0  0.0   0:00.00 [migration/1]                                                                                                                                                                                          

Der VMWare-Prozess für die virtuelle Maschine, in die ich die Installation durchführte, wurde zu einem Zombie. Dennoch verbrauchte er immer noch 100 % der CPU-Zeit auf einem der Kerne und ich konnte ihn oder andere virtuelle Maschinen nicht erreichen. (Ich war bei einer virtuellen Maschine über SSH angemeldet, bei einer anderen über X11 und bei einer dritten über VNC. Alle drei Verbindungen brachen ab). Als ich ps -efähnliche Befehle ausführte, stellte ich fest, dass die übergeordnete vmware-vmxPID des nicht mehr aktiven Prozesses auf (1) gesetzt war init. Ich verwendete auch lsof -p 21549und stellte fest, dass der nicht mehr aktive Prozess keine offenen Dateien hatte. Trotzdem verbrauchte er 100 % der CPU-Zeit...

Ich konnte nicht tötenbeliebig vmware-vmxProzesse, einschließlich des nicht mehr funktionierenden, sogar mit kill -9. Als letzten Ausweg zur Lösung der Situation habe ich versucht, die Box neu zu starten, aber shutdown, halt, reboot, und init 6alle schlugen beim Neustart/Herunterfahren fehl, selbst bei entsprechenden --forceEinstellungen. ControlAltDelerzeugte eine Meldung zum Neustart auf der Konsole, aber das System ließ sich nicht neu starten. Ich musste die Box hart aus- und wieder einschalten, um die Situation zu lösen. (Siehe meine andere Frage,Muss ich mir nach einem Absturz oder einer Kernel-Panic Sorgen um die Integrität meines Linux-Software-RAID5 machen?)

Was könnte ein solches Szenario verursachen? Was hätte ich außer einem Hard-Reset sonst noch tun können, um das Problem zu beheben? Was kann ich tun, um eine solche Situation in Zukunft zu verhindern?

Antwort1

Sehen Sie sich diesen VMWare-Forumsbeitrag an und prüfen Sie, ob er hilft: http://communities.vmware.com/message/531884#531884

Das Deaktivieren der Speicherfreigabe ist grundsätzlich eine gute Idee, wenn Sie über den nötigen RAM verfügen.

Ich habe hier einige Optimierungen zusammengestellt, die ich für VMWare Server 2 unter Ubuntu verwende: http://www.stress-free.co.nz/vmware_server_20_optimisations

Ich habe das von Ihnen beschriebene Problem noch nie erlebt und ich betreibe Produktionsserver mit Ubuntu Server 8.04LTS und 10.04LTS (sowohl 32 Bit als auch 64 Bit).

Antwort2

Leider konnte ich nie eine Lösung für dieses Problem finden. Es schien einfach ein inhärentes Problem von VMware Server zu sein.

Wir sind inzwischen auf VMWare ESXi umgestiegen. Es ist um Welten besser, es gibt keinen Vergleich! Ich hatte nie ähnliche Probleme mit ESXi.

verwandte Informationen