모든 VM에서 간헐적으로 100% CPU

모든 VM에서 간헐적으로 100% CPU

우리는 32GB RAM을 갖춘 Dell T420(듀얼 CPU, 1개만 존재, 코어 6개)을 메인 서버로 실행하는 소규모 상점입니다. 우리는 VM이 ​​5개만 있는데 그 중 하나가 WSE 2012 DC입니다.

때때로 안정적인 패턴을 설정할 수 없는 속도로 모든 VM의 CPU 사용량이 동시에 100%까지 치솟습니다. 호스트는 4~5%로 조용합니다. 호스트 웜 부팅은 문제를 해결하지 못하지만 콜드 부팅은 적어도 문제가 다시 발생할 때까지 문제를 다시 원래 상태로 되돌려 놓습니다.

때때로 우리는 일주일 이상 잔잔한 바다를 얻을 수 있습니다. 때로는 하루만. 신뢰할 수 없는 패턴은 연장된 유휴 기간 중 언젠가, 즉 밤새 시작되는 것 같습니다. 처음에는 서버의 온도 로그를 조사한 결과 과열이 의심되었지만 최근 사건에 대한 추가 조사를 통해 이러한 단서를 망쳤습니다.

또한 Dell 포럼에서 유사한 문제에 대한 설명을 발견했으며 최신 Dell 업데이트를 설치하면 해결된다는 주장도 있었습니다. 우리는 최근에 이를 수행하기 위한 프로젝트에 참여했지만(여담이지만 해당 시스템에서 최대 700GB의 VHD를 안전하게 꺼냈다가 다시 다시 설치하는 것은 상당한 모험이었습니다), 실망스럽게도 도움이 되지 않았습니다.

우리는 완전히 당황했습니다. Microsoft 지원도 마찬가지입니다(또는 최소한 1차 계층 지원은 그렇게 하지 않으려고 노력하지만). SystemInfo 출력 아래에 포함하고 있습니다.

어디서부터 시작해야 할지 아는 사람 있나요?

감사해요

===================================

호스트 이름: SERVER1
OS 이름: Microsoft Hyper-V Server 2012 R2
OS 버전: 6.3.9600 해당 없음 빌드 9600
OS 제조업체: Microsoft Corporation
OS 구성: 독립형 서버
OS 빌드 유형: 다중 프로세서 무료
등록된 소유자: Windows 사용자
등록된 조직:   
상품ID : 06401-029-0000043-76293
원래 설치 날짜: 2014년 4월 3일, 오후 4시 07분 15초
시스템 부팅 시간: 2014년 5월 4일, 오후 1:56:47
시스템 제조업체: Dell Inc.
시스템 모델: PowerEdge T420
시스템 유형: x64 기반 PC
프로세서: 1개의 프로세서가 설치되었습니다.
                           [01]: Intel64 제품군 6 모델 45 스테핑 7 정품Intel ~2200Mhz
                           [Intel(R) Xeon(R) CPU E5-2430 0 @ 2.20 GHz] (수동으로 추가)
BIOS 버전: Dell Inc. 2.1.2, 2014년 1월 20일
Windows 디렉터리: C:\Windows
시스템 디렉터리: C:\Windows\system32
부팅 장치: \Device\HarddiskVolume1
시스템 로캘: en-us;English(미국)
입력 로캘: en-us;English(미국)
시간대: (UTC-09:00) 알래스카
총 물리적 메모리: 32,723MB
사용 가능한 물리적 메모리: 12,716MB
가상 메모리: 최대 크기: 37,587MB
가상 메모리: 사용 가능: 17,129MB
가상 메모리: 사용 중: 20,458MB
페이지 파일 위치: C:\pagefile.sys
도메인: OIT
로그온 서버: \\SERVER1
핫픽스: 31개의 핫픽스가 설치되었습니다.
                           [01]:KB2843630
                           [02]:KB2862152
                           [03]: KB2868626
                           [04]: KB2876331
                           [05]:KB2883200
                           [06]:KB2884846
                           [07]:KB2887595
                           [08]:KB2892074
                           [09]:KB2893294
                           [10]: KB2894179
                           [11]: KB2898514
                           [12]: KB2898871
                           [13]: KB2901101
                           [14]: KB2901128
                           [15]:KB2903939
                           [16]: KB2904266
                           [17]: KB2908174
                           [18]:KB2909210
                           [19]: KB2911106
                           [20]: KB2913760
                           [21]:KB2916036
                           [22]: KB2917929
                           [23]:KB2919394
                           [24]: KB2919442
                           [25]:KB2922229
                           [26]:KB2923300
                           [27]:KB2923768
                           [28]: KB2928193
                           [29]: KB2928680
                           [30]:KB2930275
                           [31]:KB2939087
네트워크 카드: NIC 3개 설치됨.
                           [01]: Broadcom NetXtreme 기가비트 이더넷
                                 연결 이름: NIC1
                                 DHCP 활성화: 아니오
                                 IP 주소
                           [02]: Broadcom NetXtreme 기가비트 이더넷
                                 연결 이름: NIC2
                                 DHCP 활성화: 예
                                 DHCP 서버: 192.168.1.12
                                 IP 주소
                                 [01]: 192.168.1.135
                                 [02]: fe80::915b:8de0:712e:29f1
                           [03]: Hyper-V 가상 이더넷 어댑터
                                 연결 이름: vEthernet(외부 NIC 1_내부)
                                 DHCP 활성화: 아니오
                                 IP 주소
                                 [01]: 192.168.1.11
                                 [02]: fe80::2d35:f582:4958:9eb2
Hyper-V 요구 사항: 하이퍼바이저가 감지되었습니다. Hyper-V에 필요한 기능은 표시되지 않습니다.

== 편집 ======================

이 문제에 대한 해결책을 찾았습니다. 더 이상 문제가 발생하지 않도록 1년 넘게 기다렸습니다.

중재자: 답변을 게시할 수 있도록 질문을 다시 열어달라고 요청하고 싶습니다.

답변1

솔루션이 타당하다는 것을 증명하기 위해 1년 넘게 기다린 끝에 마침내 이 답변을 게시할 수 있게 되었습니다.

Dell의 기본 BIOS 설정에는 유휴 시간 동안 컴퓨터를 저전력 모드로 전환하는 C-상태가 활성화되어 있습니다. 이로 인해 VM이 하이퍼바이저 호스트(VMWare, Citrix 포함)에서 CPU 사용량이 100%로 급증하게 됩니다.

해결 방법은 BIOS의 시스템 프로필 설정을 와트당 성능(OS) 또는 와트당 성능(DAPC)(기본값은 후자가 됨)이 아닌 성능으로 설정하는 것입니다.

관련 Dell 설명서, pp3:

http://en.community.dell.com/techcenter/extras/m/white_papers/20161975/download

이 문제를 잘 알고 있는 몇 안 되는 Dell 지원 엔지니어 중 한 사람의 답변은 다음과 같습니다.

짧은 버전은 다음과 같습니다. C-State는 유휴 시간 동안 추가 프로세서 코어를 비활성화합니다. 코어에 연결된 VM(이것은 OS로 제어되며 구성 가능하지 않다고 생각함)의 경우 더 이상 눈에 존재하지 않는 리소스로 작업을 수행하려고 시도하므로 VM이 잠길 수 있습니다.

일반적으로 C-상태는 일반적으로 백업 서버, 보조 역할 서버(백업 DNS, DHCP, 도메인 컨트롤러 등)와 같은 항목에 사용되므로 백업 서버는 계속 켜져 있지만 에너지를 절약하기 위해 저전력 모드로 유지될 수 있습니다.

추가 문서는 여기에서 찾을 수 있습니다:

http://en.wikipedia.org/wiki/Advanced_Configuration_and_Power_Interface

간단히 말해서 Dell 서버의 전원 유휴 상태는 Hypervisor 호스트에 대해 항상 꺼져 있어야 합니다(성능으로 설정).

이 솔루션을 찾는 데 도움을 준 Kitsap Bank의 Eddy Simons에게 감사드립니다.

답변2

문제가 무엇인지는 불분명합니다. 당신은 이미 그것을 알고 있습니다. 원인이 무엇인지 알려드릴 기회가 없습니다.

그러나 몇 가지 테스트를 실행할 수 있습니다.

  • VM 1 빌드

    • 이 VM에서 CPU 집약적인 작업을 지속적으로 실행합니다
      (초당 수백만 개의 복잡한 수학 계산 수행).
  • VM 2 빌드

    • 이 VM에서 RAM 집약적인 작업을 지속적으로 실행합니다
      (메모리에 거대한 배열 생성, 삭제, 반복).
  • VM 3 빌드

    • 이 VM에서 지속적으로 DISK 집약적인 작업을 실행합니다
      (파일에서 수백만 줄 읽기/쓰기/삭제).
  • VM 4 빌드

    • 이 VM에서 네트워크 집약적인 작업을 지속적으로 실행합니다
      (SMB 공유 간에 파일 복사).

문제가 다시 발생할 때까지 기다렸다가 각 서버의 성능 데이터를 관찰하십시오.
가장 큰 영향을 받은 것은 무엇입니까?
전혀 영향을 받지 않은 것이 있나요?

내 생각에는 디스크 성능이 좋지 않고 CPU가 계속하기 전에 IO 작업이 완료될 때까지 기다리고 있어 일부 응용 프로그램이 CPU를 플랫라인화할 수 있는 것 같습니다.

답변3

이걸 발견해서 다행이에요. Hyper-v를 실행하는 2012R2 서버가 있습니다. AMD, 6코어 CPU. 1년 넘게 완벽하게 작동해왔습니다. 갑자기 RDP나 Hyper-V 연결이 아닌 연결이 불가능한 VM이 보이기 시작했습니다. 유일한 옵션은 VM을 끄는 것이었습니다. 종료해도 응답이 없습니다. 그럼... 가상 플러그를 벽에서 뽑아보세요. 켜다.

증상은 개별 시스템이 할당된 CPU의 100%를 사용하는 것처럼 보였습니다(예: 6코어 호스트의 1코어 VM이 16%로 고정되었습니다).

문제는 산발적이었습니다. 명백한 운율이나 이유가 없습니다.

마침내 이것이 해당 mobo에서 32GB에서 64GB로 업그레이드하려는 실패한 시도와 일치한다는 생각이 들었습니다. 문제는 16GB 메모리 1개, 2개 또는 3개를 16GB, 32GB 또는 48GB에 사용할 수 있지만 64GB에는 4개 스틱을 사용할 수 없다는 것입니다. 바이오스 설정 등으로 장난을 많이 칩니다. 그 앞에서는 기쁨이 없습니다. 그때 저는 VM에서 동적 메모리를 활성화하는 놀라운 기능을 발견했습니다. 결국 64기가 없어도 살아남을 수 있었구나!!

아무래도 제가 땜질을 하면서 CPU에 대한 전원 관리를 켰더니 이런 문제가 발생한 것 같습니다.

바이오스에서 APM을 꺼두었습니다. 이 문제가 해결되었다고 60% 확신하기까지는 며칠이 걸릴 것입니다. 승리를 선언하는 데 몇 주가 걸립니다. 그러나 이것이 문제의 타당한 이유처럼 느껴집니다.

지금까지 24시간이 지났는데 지금까지는 너무 좋아요.

손가락이 교차했습니다.

정보 주셔서 감사합니다!!

관련 정보