WSFC クラスター内の Windows Server 2016 ゲストがハートビートルートのドロップによりランダムに隔離される

Question

Windows Server 2019 フェールオーバークラスター (Hyper-V 2019 用) でも同じ問題が発生しました。通常、サーバーで IPv6 も無効にしていますが、それが問題の原因でした。ファイル共有監視も実行されていて動作しているにもかかわらず、クラスターは多くの重大なエラーをスローし、ハードフェールオーバーを実行することがありました (?!)。

イベントログで確認したエラーと警告は次のとおりです。

フェールオーバークラスタリングイベント ID:

1135 (クラスターノード '....' がアクティブなフェールオーバークラスターメンバーシップから削除されました)
1146 (クラスターリソースホスティングサブシステム (RHS) プロセスが終了し、再起動されます)
1673 (クラスターノード '....' が分離状態になりました。)
1681 (ノード '....' 上の仮想マシンは監視されていない状態になりました。)

サービスコントロールマネージャーイベント ID:

7024 (クラスターを形成するためのクラスターノードのクォーラムが存在しません。)
7031 (Cluster Service サービスが予期せず終了しました。)

フェールオーバークラスタリングクライアント

81 (拡張RPCエラー情報)

あなたの調査のおかげで、重要な手がかりが得られました。隠しアダプタは依然として IPv6 を使用しています。あなたがリンクした記事には、隠しアダプタで IPv6 を無効にすることは推奨されておらず、主流でもありませんが、他のすべてのアダプタで IPv6 を無効にすることはサポートされ、テストされていると書かれていたので、何が彼の作業を妨げているのか疑問に思いました。

次のコマンドを使用して、クラスターログを取得しました (ヒントもありがとうございます。この便利なコマンドについては知りませんでした)。

# -Destination (Folder) in my case changed to be not on the "C:\" SATADOM (this thing is slow and has few write cycles)
# -TimeSpan (in minutes) limited to one of the Failovers because these logs get HUGE otherwise.
Get-ClusterLog -Destination "E:\" -TimeSpan 5

残念ながら、すでに投稿されているものと同じログエントリがありました。

すべてのアダプタで IPv6 を再度有効にし、トンネル関連のアダプタ/構成を次のように元に戻しました。

Set-Net6to4Configuration -State Default
Set-NetTeredoConfiguration -Type Default
Set-NetIsatapConfiguration -State Default

それはうまくいきませんでした...さらに調べてみると、私は常に「不要な」IPv6 関連のファイアウォールルールも無効にしていることに気付きました...そして、それが実際に重要な変更のようです! これらのルールは、非表示のアダプターにも影響するようです。

問題は、IPv6 は通信相手の MAC アドレスを見つけるために ARP を使用しないという点です。IPv6 は近隣探索プロトコルを使用します。また、関連するファイアウォールルールを無効にすると、このプロトコルは機能しません。IPv4 ARP エントリは次のように確認できます。

arp -a

これでは IPv6 アドレスの MAC アドレスは表示されません。そのためには、次のものを使用できます。

netsh interface ipv6 show neighbors level=verbose

必要に応じて、次のように IPv6 アダプタアドレスへの出力をフィルターできます。

netsh interface ipv6 show neighbors level=verbose | sls ".*fe80::1337:1337:1234:4321.*" -Context 4 |%{$_.Line,$_.Context.PostContext,""}

そうすると、これらのエントリの存続期間は非常に短いことがわかりました。クラスタパートナーの Microsoft「フェールオーバークラスタ仮想アダプタ」リンクローカルアドレスのエントリの状態は、常に「到達可能」と「プローブ」の間で切り替わっていました。ただし、「到達不能」になった瞬間はわかりませんでしたが、IPv6 ルールを再度有効にすると、問題は解消されました。

Get-NetFirewallRule -ID "CoreNet-ICMP6-*" | Enable-NetFirewallRule

どういうわけか、この MAC アドレスはクラスターパートナー間で別の方法で交換されているようです (おそらく、これは「仮想リモート」アドレスであり、実際のアドレスではないためでしょうか)。そのため、このアドレスが繰り返し出現し、フェイルオーバー/検疫/分離状態が乱れることになります。

おそらく、非表示のアダプタで IPv6 を無効にすることも役立つでしょうが、これは推奨されていないため、IPv6 関連の無効化を完全にやめることにしました。いずれにせよ、これは未来です :-)

これが IPv6 を無効にしようとしている他の人たちに役立つことを願っています。

Answer 1