為什麼VMWare會倒閉?如何恢復/預防?

為什麼VMWare會倒閉?如何恢復/預防?

我正在雙核心 Intel i5 和 Ubuntu Server 10.04 LTS 系統(核心)上執行 VMWare Server 2.0.2(內部版本 203138)2.6.32-22-server #33-Ubuntu SMP。磁碟子系統是一個軟體 RAID5 陣列。

該系統已經安裝了一周多一點。在過去的 5 天裡,我運行了至少 3 個虛擬機器(Linux 和各種 Windows 作業系統),沒有任何問題。但是,當我在一台新虛擬機器上安裝 Linux 時,突然所有虛擬機器都變得無響應,包括我正在安裝的虛擬機器。我無法登入 VMWare 管理介面,且系統透過 SSH 有點無回應。當我查看時top,我看到:

top - 16:14:51 up 6 days,  1:49,  8 users,  load average: 24.29, 24.33 17.54
Tasks: 203 total,   7 running, 195 sleeping,   0 stopped,   1 zombie
Cpu(s):  0.2%us, 25.6%sy,  0.0%ni, 74.3%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:   8056656k total,  5927580k used,  2129076k free,    20320k buffers
Swap:  7811064k total,   240216k used,  7570848k free,  5045884k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                                                                                                                                                                               
21549 root      39  19     0    0    0 Z  100  0.0  15:02.44 [vmware-vmx] <defunct>
 2115 root      20   0     0    0    0 S    1  0.0 170:32.08 [vmware-rtc]
 2231 root      21   1 1494m 126m 100m S    1  1.6 892:58.05 /usr/lib/vmware/bin/vmware-vmx -# product=2;                                                                                                                                                                                       
 2280 jnet      20   0 19320 1164  800 R    0  0.0  30:04.55 top 
12236 root      20   0  833m  41m  34m S    0  0.5  88:34.24 /usr/lib/vmware/bin/vmware-vmx -# product=2;
    1 root      20   0 23704 1476  920 S    0  0.0   0:00.80 /sbin/init                                                                                                                                                                                             
    2 root      20   0     0    0    0 S    0  0.0   0:00.01 [kthreadd]                                                                                                                                                                                             
    3 root      RT   0     0    0    0 S    0  0.0   0:00.00 [migration/0]                                                                                                                                                                                          
    4 root      20   0     0    0    0 S    0  0.0   0:00.84 [ksoftirqd/0]                                                                                                                                                                                          
    5 root      RT   0     0    0    0 S    0  0.0   0:00.00 [watchdog/0]                                                                                                                                                                                           
    6 root      RT   0     0    0    0 S    0  0.0   0:00.00 [migration/1]                                                                                                                                                                                          

我正在安裝的虛擬機器的 VMWare 進程變成了殭屍進程。然而,它仍然在其中一個核心上消耗 100% 的 CPU 時間,而且我無法存取它或任何其他虛擬機器。 (我透過 SSH 登入一台虛擬機,透過 X11 登入另一台虛擬機,透過 VNC 登入第三台虛擬機。所有三個連線均已中斷)。當我執行ps -ef類似的命令時,我發現vmware-vmx已失效的進程的父 PID 設定為init(1)。我也使用過lsof -p 21549,發現已失效的進程沒有開啟的檔案。然而它卻使用了 100% 的 CPU 時間...

我無法殺死任何 vmware-vmx進程,包括已失效的進程,即使使用kill -9.作為解決這種情況的最後手段,我嘗試重新啟動盒子,但是shutdown,即使給出了適當的設置haltreboot所有的都無法重新啟動/關閉。在控制台上產生有關重新啟動的訊息,但係統無法重新啟動。我不得不對盒子進行硬重啟才能解決這個問題。 (請參閱我的另一個問題,init 6--forceControlAltDel在崩潰或核心崩潰後,我是否應該擔心 Linux 軟體 RAID5 的完整性?

什麼會導致這樣的場景呢?除了硬重啟之外,我還能做些什麼來解決這個問題?我可以做些什麼來防止將來發生這種情況?

答案1

查看此 VMWare 論壇帖子,看看是否有幫助: http://communities.vmware.com/message/531884#531884

如果您有 RAM,那麼停用記憶體共享通常是一個好主意。

我在這裡編譯了一些針對 Ubuntu 上的 VMWare Server 2 的最佳化: http://www.stress-free.co.nz/vmware_server_20_optimizes

我從未遇到過您所描述的問題,我正在使用 Ubuntu Server 8.04LTS 和 10.04LTS(32 位元和 64 位元)運行生產伺服器。

答案2

不幸的是我一直無法找到這個問題的解決方案。這似乎是 VMware Server 固有的問題。

我們已經遷移到 VMWare ESXi。這是世界上更好的,沒有可比性!我在使用 ESXi 時從未遇到類似問題。

相關內容