仮想環境で物理マシンに障害が発生するとどうなりますか?

Question 1

具体的な内容は、どの仮想化ソリューションを使用するかによって異なりますが、基本的な考え方は、複数の物理ホストとそれぞれ複数の仮想マシンがある仮想ファームを用意することです。いくつかのすべての VM に物理ホストが必要なくなることで得られる効率性により、物理マシンがダウンした場合でもカバーできる十分なオーバーヘッドが残ります。

さらに、各 VM の VHD を共通の (冗長) SAN に配置することもできます。各物理ホストのハイパーバイザーは、互いに通信し、異なる VM のメモリを共有するように設定できます。遅延は多少あり、メモリの多くはディスクによってバックアップされますが、物理ホストの 1 つがダウンした場合、そのホストの VM が再起動するのを待つ必要はありません。代わりに、それらの VM は残りのホスト間で自動的に分散されます。最終的な目標は、これらのマシンがほぼ中断したところから再開するダウンタイムはほとんど、あるいはまったくありません。ある意味、すべての VM は少なくとも 2 台の物理ホストですでに実行されています。実際には、現時点では、ハイパーバイザーは、ホストに障害が発生する前に移行が予定されている場合にのみ、一度に 1 台のマシンでこの種の移行を実行できます... ただし、ハードウェア障害発生時の即時移行は、すべての主要なハイパーバイザーの究極の目標です。

このため、ファーム内の単一の物理ホストに仮想化されたサーバーを目にすることがあります。ハードウェアの効率性は向上しない可能性があります（失うパフォーマンスは多少低下しますが、管理の一貫性と組み込みの高可用性の点でそれを補うことができます。

Answer

具体的な内容は、どの仮想化ソリューションを使用するかによって異なりますが、基本的な考え方は、複数の物理ホストとそれぞれ複数の仮想マシンがある仮想ファームを用意することです。いくつかのすべての VM に物理ホストが必要なくなることで得られる効率性により、物理マシンがダウンした場合でもカバーできる十分なオーバーヘッドが残ります。

さらに、各 VM の VHD を共通の (冗長) SAN に配置することもできます。各物理ホストのハイパーバイザーは、互いに通信し、異なる VM のメモリを共有するように設定できます。遅延は多少あり、メモリの多くはディスクによってバックアップされますが、物理ホストの 1 つがダウンした場合、そのホストの VM が再起動するのを待つ必要はありません。代わりに、それらの VM は残りのホスト間で自動的に分散されます。最終的な目標は、これらのマシンがほぼ中断したところから再開するダウンタイムはほとんど、あるいはまったくありません。ある意味、すべての VM は少なくとも 2 台の物理ホストですでに実行されています。実際には、現時点では、ハイパーバイザーは、ホストに障害が発生する前に移行が予定されている場合にのみ、一度に 1 台のマシンでこの種の移行を実行できます... ただし、ハードウェア障害発生時の即時移行は、すべての主要なハイパーバイザーの究極の目標です。

このため、ファーム内の単一の物理ホストに仮想化されたサーバーを目にすることがあります。ハードウェアの効率性は向上しない可能性があります（失うパフォーマンスは多少低下しますが、管理の一貫性と組み込みの高可用性の点でそれを補うことができます。

Question 2

ホストに何らかの障害が発生すると、物理ホスト上で実行されているすべての仮想サーバーはオフラインになります。

とはいえ、ほとんどのプラットフォームは単一の VM に対して高可用性ソリューションを提供しています。また、1 つのノードがダウンした場合にサービスが中断しないように、複数のノードでシステムが構築されることもあります。

2 つの VM ノードが高可用性サービスを構成する場合、2 つのノードが同じ物理インフラストラクチャに依存しないようにハイパーバイザーを構成することができます (フォールトトレランス)。これは、異なるネットワークパスや地理的に離れた場所まで含めた、単なる物理サーバーのフォールトトレランス以上のものになる可能性があります。

Answer

ホストに何らかの障害が発生すると、物理ホスト上で実行されているすべての仮想サーバーはオフラインになります。

とはいえ、ほとんどのプラットフォームは単一の VM に対して高可用性ソリューションを提供しています。また、1 つのノードがダウンした場合にサービスが中断しないように、複数のノードでシステムが構築されることもあります。

2 つの VM ノードが高可用性サービスを構成する場合、2 つのノードが同じ物理インフラストラクチャに依存しないようにハイパーバイザーを構成することができます (フォールトトレランス)。これは、異なるネットワークパスや地理的に離れた場所まで含めた、単なる物理サーバーのフォールトトレランス以上のものになる可能性があります。

Question 3

物理マシンに障害が発生すると VM も使用できなくなるというあなたの想定は正しいです。

しかし、OpenStack はそれを処理し、障害が発生した物理サーバーの VM を別のサーバー上で起動したり、すでに分散されているハイパーバイザーシステムを使用したりすることができます。vSphere はそれができると思います。

読んでみてくださいHA に関する OpenStack ドキュメント詳細については。

Answer

物理マシンに障害が発生すると VM も使用できなくなるというあなたの想定は正しいです。

しかし、OpenStack はそれを処理し、障害が発生した物理サーバーの VM を別のサーバー上で起動したり、すでに分散されているハイパーバイザーシステムを使用したりすることができます。vSphere はそれができると思います。

読んでみてくださいHA に関する OpenStack ドキュメント詳細については。

Question 4

ご質問に関してですが、はい、この物理ホスト内のすべてのマシンへのアクセスが失われます。もちろん、どのコンポーネントに障害が発生したかによって異なります。ディスクの場合は問題ですが、マザーボードの場合ははるかに簡単です。一般に、ハイパーバイザーはハードウェアに依存しないため、ハードウェアの復旧は簡単です。現時点では、可用性の高いサービスを提供するために使用できるベンダー固有のテクノロジが多数あります。

リソースプール(vmware) - はない誰かが上で述べたように、複数の物理ホストリソース（CPU、メモリなど）を集約することができるので、2つの物理ホスト（ハイパースレッディングなしの1CPUクアッドコア、それぞれ8GBのRAM）がある場合、ないそこに 5vCPU-12Gb VM を配置することが可能です。リソースプールは論理的なもので、スーパーコンピューティングシステムを作成することはできません。現在、これはリソース使用率を制御する方法です。

可用性（vmware） - 次のような技術を使用することができます高可用性（HA）これにより、自動回復が可能になります（私の経験に基づくと1～2分ストレージアレイ (NAS、iSCSI、FC) を使用していて、すべての VM ファイルをそこに保存している場合、クラスタ内のすべての VM の HA が自動的に実行されます。さらに、HA は CPU、RAM、マザーボードに障害が発生した場合にのみ機能し、ストレージアレイがダウンした場合は機能しないことは明らかです。RAID/コントローラの障害を防ぐために、レプリケーション、ストレージ LUN ミラーリングなどが使用されます。

1〜2分以内に回復できない場合は、次のような技術があります。フォールトトレランス(FT) は、構成された VM のシャドウ (実行中) コピーを保持することで、障害発生時に VM のダウンタイムをゼロにすることができます。ただし、このテクノロジにも多くの制限があり、複数の vCPU を持つ VM のフォールトトレランスの問題は完全に解決されていません。

全体として、それぞれのソリューションは目標によって異なります。

Answer