하트비트 경로 삭제로 인해 WSFC 클러스터의 Windows Server 2016 게스트가 무작위로 격리됨

Question

Windows Server 2019 장애 조치 클러스터(Hyper-V 2019용)에서도 동일한 문제가 발생했습니다. 나는 일반적으로 내 서버에서 IPv6도 비활성화하는데 이로 인해 문제가 발생합니다. 클러스터는 많은 심각한 오류를 발생시켰고 파일 공유 감시 기능도 설치되어 작동 중임에도 불구하고 때때로 하드 장애 조치를 수행했습니다(?!).

이벤트 로그에서 관찰한 오류 및 경고는 다음과 같습니다.

장애 조치 클러스터링 이벤트 ID:

1135(클러스터 노드 '....'가 활성 장애 조치 클러스터 구성원에서 제거되었습니다.)
1146(클러스터 RHS(Resource Hosting Subsystem) 프로세스가 종료되었으며 다시 시작됩니다.)
1673(클러스터 노드 '....'이(가) 격리 상태에 들어갔습니다.)
1681('...' 노드의 가상 컴퓨터가 모니터링되지 않는 상태로 들어갔습니다.)

서비스 제어 관리자 이벤트 ID:

7024(클러스터를 형성하기 위한 클러스터 노드의 쿼럼이 존재하지 않습니다.)
7031(클러스터 서비스 서비스가 예기치 않게 종료되었습니다.)

장애 조치 클러스터링-클라이언트

81 (확장 RPC 오류 정보)

귀하의 연구 덕분에 중요한 단서를 얻었습니다. 숨겨진 어댑터는 여전히 IPv6를 사용합니다. 당신이 링크한 기사에서는 숨겨진 어댑터에서 IPv6을 비활성화하는 것이 권장되지 않거나 주류가 아니라고 말했지만 다른 모든 어댑터에서는 비활성화하는 것이 지원되고 테스트되었기 때문에 그가 작동하지 않는 이유가 무엇인지 궁금합니다.

다음 명령을 사용하여 클러스터 로그를 가져왔습니다(힌트를 알려주셔서 감사합니다! 이 유용한 명령을 몰랐습니다).

# -Destination (Folder) in my case changed to be not on the "C:\" SATADOM (this thing is slow and has few write cycles)
# -TimeSpan (in minutes) limited to one of the Failovers because these logs get HUGE otherwise.
Get-ClusterLog -Destination "E:\" -TimeSpan 5

불행하게도 귀하가 이미 게시한 것과 동일한 로그 항목이 있었습니다.

모든 어댑터에서 IPv6를 다시 활성화하고 다음을 사용하여 터널 관련 어댑터/구성을 되돌렸습니다.

Set-Net6to4Configuration -State Default
Set-NetTeredoConfiguration -Type Default
Set-NetIsatapConfiguration -State Default

그것은 트릭을 수행하지 못했습니다... 더 자세히 살펴보면 "필요하지 않은" IPv6 관련 방화벽 규칙도 항상 비활성화한다는 것을 알았습니다... 그리고 이것이 실제로 중요한 변경인 것 같습니다! 이러한 규칙은 보이지 않는 어댑터에도 영향을 미치는 것 같습니다.

문제는 다음과 같습니다. IPv6은 통신 파트너의 MAC 주소를 찾는 데 ARP를 사용하지 않습니다. Neighbor Discovery Protocol을 사용합니다. 그리고 관련 방화벽 규칙을 비활성화하면 이 프로토콜이 작동하지 않습니다. 다음을 사용하여 IPv4 ARP 항목을 확인할 수 있습니다.

arp -a

IPv6 주소의 MAC 주소는 표시되지 않습니다. 다음을 사용할 수 있습니다.

netsh interface ipv6 show neighbors level=verbose

원하는 경우 다음과 같이 출력을 IPv6 어댑터 주소로 필터링할 수 있습니다.

netsh interface ipv6 show neighbors level=verbose | sls ".*fe80::1337:1337:1234:4321.*" -Context 4 |%{$_.Line,$_.Context.PostContext,""}

그렇게 하면서 나는 그 항목들의 수명이 매우 짧은 것 같다는 것을 알게 되었습니다. 클러스터 파트너의 Microsoft "장애 조치 클러스터 가상 어댑터" 링크 로컬 주소에 대한 항목 상태는 항상 "접근 가능"과 "프로브" 사이에서 전환되었습니다. 하지만 "도달할 수 없음"이 발생한 순간은 얻지 못했지만 IPv6 규칙을 다시 활성화한 후 문제가 사라졌습니다.

Get-NetFirewallRule -ID "CoreNet-ICMP6-*" | Enable-NetFirewallRule

어떻게든 이 MAC 주소는 클러스터 파트너 간에 다른 방식으로 교환되는 것 같습니다(아마 실제 주소가 아니라 "가상 원격" 주소이기 때문일까요?). 따라서 계속해서 다시 나타나서 야생 장애 조치/격리/격리 상태로 이어집니다.

아마도 보이지 않는 어댑터에서 IPv6을 비활성화하는 것도 도움이 되었을 것입니다. 그러나 이는 권장되지 않으므로 이제 IPv6 관련 기능을 모두 비활성화하는 것을 중단하기로 결정했습니다. 어쨌든 미래입니다 :-)

이것이 다른 IPv6 비활성화자에게 도움이 되기를 바랍니다!

Answer 1