私は、Ubuntu Server 10.04 LTS システム (カーネル) を搭載したデュアル コア Intel i5 で VMWare Server 2.0.2 (ビルド 203138) を実行しています2.6.32-22-server #33-Ubuntu SMP
。ディスク サブシステムはソフトウェア RAID5 アレイです。
システムは 1 週間ちょっと前からセットアップされています。過去 5 日間、少なくとも 3 つの VM (Linux とさまざまな Windows OS) をまったく問題なく実行してきました。しかし、新しい VM に Linux をインストールしているときに、インストール先の VM を含め、すべての VM が突然応答しなくなりました。VMWare 管理インターフェイスにログインできず、SSH 経由でもシステムが応答しなくなっていました。 を見るとtop
、次のことがわかりました。
top - 16:14:51 up 6 days, 1:49, 8 users, load average: 24.29, 24.33 17.54
Tasks: 203 total, 7 running, 195 sleeping, 0 stopped, 1 zombie
Cpu(s): 0.2%us, 25.6%sy, 0.0%ni, 74.3%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 8056656k total, 5927580k used, 2129076k free, 20320k buffers
Swap: 7811064k total, 240216k used, 7570848k free, 5045884k cached
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
21549 root 39 19 0 0 0 Z 100 0.0 15:02.44 [vmware-vmx] <defunct>
2115 root 20 0 0 0 0 S 1 0.0 170:32.08 [vmware-rtc]
2231 root 21 1 1494m 126m 100m S 1 1.6 892:58.05 /usr/lib/vmware/bin/vmware-vmx -# product=2;
2280 jnet 20 0 19320 1164 800 R 0 0.0 30:04.55 top
12236 root 20 0 833m 41m 34m S 0 0.5 88:34.24 /usr/lib/vmware/bin/vmware-vmx -# product=2;
1 root 20 0 23704 1476 920 S 0 0.0 0:00.80 /sbin/init
2 root 20 0 0 0 0 S 0 0.0 0:00.01 [kthreadd]
3 root RT 0 0 0 0 S 0 0.0 0:00.00 [migration/0]
4 root 20 0 0 0 0 S 0 0.0 0:00.84 [ksoftirqd/0]
5 root RT 0 0 0 0 S 0 0.0 0:00.00 [watchdog/0]
6 root RT 0 0 0 0 S 0 0.0 0:00.00 [migration/1]
インストール先の仮想マシンの VMWare プロセスがゾンビになりました。それでも、コアの 1 つで CPU 時間の 100% を消費し続け、そのプロセスや他の仮想マシンにアクセスできませんでした (1 つの仮想マシンには SSH 経由でログインし、もう 1 つの仮想マシンには X11 経由でログインし、3 つ目の仮想マシンには VNC 経由でログインしました。3 つの接続はすべて切断されました)。同様のコマンドを実行すると、機能していないプロセスの親 PID が (1) に設定されているps -ef
ことがわかりました。また、を使用して、機能していないプロセスに開いているファイルがないこともわかりました。それでも、CPU 時間の 100% を消費していました...vmware-vmx
init
lsof -p 21549
私は殺すことができなかったどれでも vmware-vmx
プロセスは、機能していないプロセスも含めて、 を使っても実行されkill -9
ました。この状況を解決する最後の手段として、ボックスを再起動しようとしましたが、shutdown
、halt
、reboot
、およびすべてが、適切な設定init 6
を与えても再起動/シャットダウンに失敗しました。コンソールに再起動に関するメッセージが表示されましたが、システムは再起動しませんでした。この状況を解決するには、ボックスの電源を強制的にオン/オフにする必要がありました。(他の質問を参照してください。--force
ControlAltDelクラッシュやカーネルパニックが発生した後、Linux ソフトウェア RAID5 の整合性について心配する必要がありますか?)
このようなシナリオの原因は何でしょうか? ハードリブート以外に、この問題を解決するために何ができるでしょうか? 今後このような状況を防ぐために何ができるでしょうか?
答え1
この VMWare フォーラムの投稿をチェックして、役立つかどうかを確認してください。 http://communities.vmware.com/message/531884#531884
RAM がある場合は、一般的にメモリ共有を無効にすることをお勧めします。
Ubuntu 上の VMWare Server 2 で使用する最適化をいくつかここにまとめました。 http://www.stress-free.co.nz/vmware_server_20_optimisations
あなたが説明した問題はこれまで一度も経験したことがなく、Ubuntu Server 8.04LTS および 10.04LTS (32 ビットと 64 ビットの両方) を搭載した実稼働サーバーを実行しています。
答え2
残念ながら、この問題の解決策を見つけることができませんでした。どうやら VMware Server 固有の問題のようです。
その後、VMWare ESXi に移行しました。比べものにならないほど優れています。ESXi では同様の問題は一度もありませんでした。