VMWare が機能しなくなるのはなぜでしょうか? 回復/防止するにはどうすればよいでしょうか?

VMWare が機能しなくなるのはなぜでしょうか? 回復/防止するにはどうすればよいでしょうか?

私は、Ubuntu Server 10.04 LTS システム (カーネル) を搭載したデュアル コア Intel i5 で VMWare Server 2.0.2 (ビルド 203138) を実行しています2.6.32-22-server #33-Ubuntu SMP。ディスク サブシステムはソフトウェア RAID5 アレイです。

システムは 1 週間ちょっと前からセットアップされています。過去 5 日間、少なくとも 3 つの VM (Linux とさまざまな Windows OS) をまったく問題なく実行してきました。しかし、新しい VM に Linux をインストールしているときに、インストール先の VM を含め、すべての VM が突然応答しなくなりました。VMWare 管理インターフェイスにログインできず、SSH 経由でもシステムが応答しなくなっていました。 を見るとtop、次のことがわかりました。

top - 16:14:51 up 6 days,  1:49,  8 users,  load average: 24.29, 24.33 17.54
Tasks: 203 total,   7 running, 195 sleeping,   0 stopped,   1 zombie
Cpu(s):  0.2%us, 25.6%sy,  0.0%ni, 74.3%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:   8056656k total,  5927580k used,  2129076k free,    20320k buffers
Swap:  7811064k total,   240216k used,  7570848k free,  5045884k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                                                                                                                                                                               
21549 root      39  19     0    0    0 Z  100  0.0  15:02.44 [vmware-vmx] <defunct>
 2115 root      20   0     0    0    0 S    1  0.0 170:32.08 [vmware-rtc]
 2231 root      21   1 1494m 126m 100m S    1  1.6 892:58.05 /usr/lib/vmware/bin/vmware-vmx -# product=2;                                                                                                                                                                                       
 2280 jnet      20   0 19320 1164  800 R    0  0.0  30:04.55 top 
12236 root      20   0  833m  41m  34m S    0  0.5  88:34.24 /usr/lib/vmware/bin/vmware-vmx -# product=2;
    1 root      20   0 23704 1476  920 S    0  0.0   0:00.80 /sbin/init                                                                                                                                                                                             
    2 root      20   0     0    0    0 S    0  0.0   0:00.01 [kthreadd]                                                                                                                                                                                             
    3 root      RT   0     0    0    0 S    0  0.0   0:00.00 [migration/0]                                                                                                                                                                                          
    4 root      20   0     0    0    0 S    0  0.0   0:00.84 [ksoftirqd/0]                                                                                                                                                                                          
    5 root      RT   0     0    0    0 S    0  0.0   0:00.00 [watchdog/0]                                                                                                                                                                                           
    6 root      RT   0     0    0    0 S    0  0.0   0:00.00 [migration/1]                                                                                                                                                                                          

インストール先の仮想マシンの VMWare プロセスがゾンビになりました。それでも、コアの 1 つで CPU 時間の 100% を消費し続け、そのプロセスや他の仮想マシンにアクセスできませんでした (1 つの仮想マシンには SSH 経由でログインし、もう 1 つの仮想マシンには X11 経由でログインし、3 つ目の仮想マシンには VNC 経由でログインしました。3 つの接続はすべて切断されました)。同様のコマンドを実行すると、機能していないプロセスの親 PID が (1) に設定されているps -efことがわかりました。また、を使用して、機能していないプロセスに開いているファイルがないこともわかりました。それでも、CPU 時間の 100% を消費していました...vmware-vmxinitlsof -p 21549

私は殺すことができなかったどれでも vmware-vmxプロセスは、機能していないプロセスも含めて、 を使っても実行されkill -9ました。この状況を解決する最後の手段として、ボックスを再起動しようとしましたが、shutdownhaltreboot、およびすべてが、適切な設定init 6を与えても再起動/シャットダウンに失敗しました。コンソールに再起動に関するメッセージが表示されましたが、システムは再起動しませんでした。この状況を解決するには、ボックスの電源を強制的にオン/オフにする必要がありました。(他の質問を参照してください。--forceControlAltDelクラッシュやカーネルパニックが発生した後、Linux ソフトウェア RAID5 の整合性について心配する必要がありますか?

このようなシナリオの原因は何でしょうか? ハードリブート以外に、この問題を解決するために何ができるでしょうか? 今後このような状況を防ぐために何ができるでしょうか?

答え1

この VMWare フォーラムの投稿をチェックして、役立つかどうかを確認してください。 http://communities.vmware.com/message/531884#531884

RAM がある場合は、一般的にメモリ共有を無効にすることをお勧めします。

Ubuntu 上の VMWare Server 2 で使用する最適化をいくつかここにまとめました。 http://www.stress-free.co.nz/vmware_server_20_optimisations

あなたが説明した問題はこれまで一度も経験したことがなく、Ubuntu Server 8.04LTS および 10.04LTS (32 ビットと 64 ビットの両方) を搭載した実稼働サーバーを実行しています。

答え2

残念ながら、この問題の解決策を見つけることができませんでした。どうやら VMware Server 固有の問題のようです。

その後、VMWare ESXi に移行しました。比べものにならないほど優れています。ESXi では同様の問題は一度もありませんでした。

関連情報