Hyper-V 仮想マシンがネットワーク経由で応答しない

Hyper-V 仮想マシンがネットワーク経由で応答しない

最近、Hyper-V 仮想マシンの 1 つが定期的にネットワーク経由で応答しなくなりました。数日おきに発生しているようですが、時には 1 日に数回発生することもあります。私はシステム管理者ではないので、皆さんから提供していただける指示があれば、ぜひ教えてください。私が知っている情報はすべて以下に含めました。追加情報が必要な場合は、喜んで追加します。

  • Hyper-V コンソール経由で接続できます。
  • RDP または ping を使用して、ネットワーク共有、IIS Web アプリに接続できません。
  • メモリ使用量は正常のようです(4 GB中3 GB)
  • プロセッサの使用率が低いようです。
  • サーバーがダウンする正確な時間はわかりませんが、サーバーがダウンする時間帯に次のエラーが一貫して表示されます。

    エラー 5719、NETLOGON
    このコンピュータは、次の理由により、ドメイン内のドメイン コントローラとのセキュリティで保護されたセッションを設定できませんでした***: 現在、ログオン要求を処理できるログオン サーバーがありません。これにより、認証の問題が発生する可能性があります。このコンピュータがネットワークに接続されていることを確認してください。この問題が解決しない場合は、ドメイン管理者に問い合わせてください。

編集

最初の投稿で見逃した詳細をいくつか示します。

  • Hyper-V サーバーと VM の両方で Windows Server 2008 Standard が実行されています。
  • Hyper-V サーバーには 6 台の VM があり、それらはすべてギガビット アダプター上で実行される 1 つの外部仮想ネットワークを共有しています。
  • 問題はこの 1 つの VM に限定されているようです。
  • サーバー上の他の VM の少なくとも 1 つにかなりの高負荷がかかっています。

答え1

仮想 NIC またはソフトウェアと仮想 NIC の相互作用に問題があるようです。試すことができる方法がいくつかありますが、おそらくウイルス対策/ファイアウォール製品が原因だと思います。

  1. すべての VM に同じウイルス対策製品がインストールされていますか? ウイルス対策/ファイアウォール製品が Hyper-V 搭載の Server 2008 を具体的にサポートしていることを確認してください。サポートしていない場合は、別のウイルス対策/ファイアウォール製品を試して (または可能であれば一時的に削除して)、問題が解決するかどうかをテストしてください。これが当社のシステムで問題の原因でした。24 ~ 48 時間ごとに、一見ランダムな VM が再起動されるまで接続を失いました。

  2. 管理/親 OS のウイルス対策製品に適切なフォルダーとプロセスの除外が設定されていることを確認します (MS 記事 ID: 961804)

  3. VM ネットワーク アダプターで、Large Send Offload や CheckSum Offload などの NIC オフロード機能を無効にしてみてください。これらの機能は Windows ではデフォルトで有効になっていますが、ハードウェア NIC がこれをサポートしていない (または Hyper-V と適切に連携していない) 可能性があり、パフォーマンスの問題やネットワーク エラーの原因となる可能性があります。これを行うにはいくつかの方法がありますが、テスト目的では、(VM 内で) NIC アダプターのプロパティを開き、[詳細設定] タブに移動して、リスト内のオフロード機能を無効にしてから、VM を再起動するのが最も簡単な方法です。(MS 記事 ID: 951037) これはかなり一般的な問題のようです。問題がある場合は、関連するポートのネットワーク スイッチにもエラーが表示される可能性があります。

答え2

以下の記事は関連があるかどうかわかりません...2008 R2 で修正されたはずが、SP1 で壊れ、SP1 以降のこの修正プログラムで再び修正されました。

http://support.microsoft.com/kb/2263829

私の経験では、修正プログラムを適用した後でもこの問題は依然として存在します。

現在まで、この問題を解決する方法を見つけることができていません。TCP オフロードや同様の設定を無効にしたりするのに 1 週​​間以上費やしたと思いますが、Hyper-V ネットワーク スタックの障害を止める方法はありません。ARCserve を使用して Exchange 2010 VM をバックアップすると、この障害が発生することがあるため、これが純粋にネットワーク負荷に関連しているかどうかはわかりません。ただし、障害が発生するのは C: ドライブのバックアップの途中だけです。「Client Agent for Windows」を削除し、Exchange エージェントを VM 上にのみ残しておけば、問題なく Exchange DB を何度でもバックアップできます。また、Exchange DB をバックアップするときの (仮想) ネットワーク経由のデータ転送速度は、数千の小さなファイルを含む C: ドライブをバックアップするときよりもはるかに高速です。

したがって、これはおそらく VHD の何らかのファイル I/O の問題であると考えられます。おそらく、SMB (ARCserve Backup は SMB を使用しますか?) の問題でしょうか? 高いファイル I/O とネットワーク負荷の両方の組み合わせでしょうか? Hyper-V 統合サービスのバグでしょうか? 何かがおかしいのですが、これについてもっと騒ぎが起きていないとは信じられません。症状と回復は少し異なりますが、異なる場所に 2 台のサーバーがあり、どちらもこの問題が発生しています。

他のサーバーは VM 内のネットワーク スタックを失いますが、VM がクラッシュして再起動中に応答しなくなるため、回復するにはホストを再起動する必要があります。したがって、単一の VM 上の障害が発生したネットワークを修正するにはホスト全体を再起動する必要があるため、これはより深刻です。これは、元の投稿で jwerwie が報告した症状です。

MAC アドレスや TCP オフロード設定などをいじくり回すのは、膨大な時間の無駄のように思えます。

答え3

突然、VM の 1 つが応答しなくなりました。同じ Hyper-V ホスト上にある他の VM はサーバーに ping を送信できましたが、VMHost の外部の VM は非常に断続的な応答しか得られませんでした。

同僚が、しばらく前に P2V した古いサーバーを起動していたことが判明しました。VM の MAC アドレスは、物理サーバーと同じままでした。私の場合は、結局 MAC アドレスの問題でした。

そうは言っても、Hyper-V 環境を構築したときに、Hyper-V で使用されていたサーバーの Broadcom NIC のすべてのオフロード機能を無効にしました。この件までは、ネットワークの問題は 1 つも発生していませんでした。

答え4

  1. IP アドレスが競合する可能性はありますか? サーバーに静的アドレスがある場合、DHCP プールと重複していませんか? 特に VPN アプライアンスや WLAN コントローラーなどのデバイスがある場合は、Windows DHCP プールが環境内の唯一のものではない可能性があることに注意してください。

  2. 同じ物理ネットワーク インターフェイスを共有する他の VM はありますか? この VM がネットワークに接続できない場合でも、他の VM はすべてネットワークに接続できますか?

関連情報