
Wir sind ein kleiner Laden und betreiben einen Dell T420 (Dual-CPU, nur einer vorhanden, 6 Kerne) mit 32 GB RAM als Hauptserver. Wir haben nur 5 VMs, eine davon ist unser WSE 2012 DC.
Von Zeit zu Zeit und mit einer Rate, für die wir kein zuverlässiges Muster feststellen konnten, erreichen alle unsere VMs gleichzeitig eine CPU-Auslastung von 100 %. Der Host bleibt bei 4-5 % ruhig. Ein Warmstart des Hosts schafft keine Abhilfe, aber ein Kaltstart bringt zumindest alles wieder in Ordnung, bis das Problem erneut auftritt.
Manchmal läuft es eine Woche oder länger ruhig, manchmal nur einen Tag. Ein unzuverlässiges Muster scheint zu sein, dass es irgendwann während einer längeren Leerlaufzeit, also über Nacht, losgeht. Eine Untersuchung der Temperaturprotokolle des Servers ließ uns zunächst eine Überhitzung vermuten, aber weitere Untersuchungen zu den jüngsten Vorfällen haben diese Spur zunichte gemacht.
Wir haben auch Beschreibungen ähnlicher Probleme in den Dell-Foren gefunden, in denen behauptet wurde, dass sie durch die Installation der neuesten Dell-Updates behoben werden könnten. Wir haben kürzlich ein Projekt gestartet, um genau das zu tun (nebenbei bemerkt war es ein ziemliches Abenteuer, ~700 GB VHDs sicher von dieser Maschine herunter- und dann wieder darauf zu übertragen), aber zu unserer großen Bestürzung hat es nicht geholfen.
Wir sind völlig verwirrt. Das gilt auch für den Microsoft-Support (oder zumindest für den First-Tier-Support, auch wenn sie versuchen, nicht so zu tun). Nachfolgend füge ich unsere SystemInfo-Ausgabe ein.
Weiß jemand, wo man mit der Suche beginnen soll?
Danke
===================================
Hostname: SERVER1 Betriebssystemname: Microsoft Hyper-V Server 2012 R2 Betriebssystemversion: 6.3.9600 N/A Build 9600 Betriebssystemhersteller: Microsoft Corporation Betriebssystemkonfiguration: Standalone-Server OS-Build-Typ: Multiprozessorfrei Registrierter Eigentümer: Windows-Benutzer Registrierte Organisation: Produkt-ID: 06401-029-0000043-76293 Ursprüngliches Installationsdatum: 03.04.2014, 16:07:15 Uhr Systemstartzeit: 04.05.2014, 13:56:47 Uhr Systemhersteller: Dell Inc. Systemmodell: PowerEdge T420 Systemtyp: x64-basierter PC Prozessor(en): 1 Prozessor(en) installiert. [01]: Intel64 Familie 6 Modell 45 Stepping 7 GenuineIntel ~2200 Mhz [Intel(R) Xeon(R) CPU E5-2430 0 @ 2,20 GHz] (manuell hinzugefügt) BIOS-Version: Dell Inc. 2.1.2, 20.01.2014 Windows-Verzeichnis: C:\Windows Systemverzeichnis: C:\Windows\system32 Startgerät: \Device\HarddiskVolume1 Systemgebietsschema: en-us;Englisch (USA) Eingabegebietsschema: en-us;Englisch (USA) Zeitzone: (UTC-09:00) Alaska Gesamter physischer Speicher: 32.723 MB Verfügbarer physischer Speicher: 12.716 MB Virtueller Speicher: Maximale Größe: 37.587 MB Virtueller Speicher: Verfügbar: 17.129 MB Virtueller Speicher: In Gebrauch: 20.458 MB Speicherort(e) der Auslagerungsdatei: C:\pagefile.sys Domäne: OIT Anmeldeserver: \\SERVER1 Hotfix(s): 31 Hotfix(s) installiert. [01]: KB2843630 [02]: KB2862152 [03]: KB2868626 [04]: KB2876331 [05]: KB2883200 [06]: KB2884846 [07]: KB2887595 [08]: KB2892074 [09]: KB2893294 [10]: KB2894179 [11]: KB2898514 [12]: KB2898871 [13]: KB2901101 [14]: KB2901128 [15]: KB2903939 [16]: KB2904266 [17]: KB2908174 [18]: KB2909210 [19]: KB2911106 [20]: KB2913760 [21]: KB2916036 [22]: KB2917929 [23]: KB2919394 [24]: KB2919442 [25]: KB2922229 [26]: KB2923300 [27]: KB2923768 [28]: KB2928193 [29]: KB2928680 [30]: KB2930275 [31]: KB2939087 Netzwerkkarte(n): 3 NIC(s) installiert. [01]: Broadcom NetXtreme Gigabit Ethernet Verbindungsname: NIC1 DHCP aktiviert: Nein IP-Adresse(n) [02]: Broadcom NetXtreme Gigabit Ethernet Verbindungsname: NIC2 DHCP aktiviert: Ja DHCP-Server: 192.168.1.12 IP-Adresse(n) [01]: 192.168.1.135 [02]: fe80::915b:8de0:712e:29f1 [03]: Virtueller Ethernet-Adapter für Hyper-V Verbindungsname: vEthernet (Externe Netzwerkkarte 1_Intern) DHCP aktiviert: Nein IP-Adresse(n) [01]: 192.168.1.11 [02]: fe80::2d35:f582:4958:9eb2 Hyper-V-Anforderungen: Ein Hypervisor wurde erkannt. Für Hyper-V erforderliche Funktionen werden nicht angezeigt.
== BEARBEITEN =======================
Ich habe die Lösung für dieses Problem gefunden. Ich habe über ein Jahr gewartet, um sicherzugehen, dass das Problem nicht noch einmal auftritt.
Moderatoren: Ich möchte eine Wiedereröffnung der Frage beantragen, damit ich die Antwort veröffentlichen kann.
Antwort1
Nachdem ich über ein Jahr gewartet habe, um die Gültigkeit der Lösung zu beweisen, kann ich diese Antwort endlich veröffentlichen.
In den Standard-BIOS-Einstellungen von Dell sind C-States aktiviert, wodurch der Computer bei Leerlaufzeiten in den Energiesparmodus versetzt wird. Dies führt dazu, dass die VMs auf einem Hypervisor-Host (VMWare, Citrix eingeschlossen) eine CPU-Auslastung von 100 % erreichen.
Die Lösung besteht darin, die Systemprofileinstellung im BIOS auf „Leistung“ zu setzen, im Gegensatz zu „Leistung pro Watt [OS]“ oder „Leistung pro Watt [DAPC]“ (letzteres ist die Standardeinstellung).
Die entsprechende Dell-Dokumentation, S. 3:
http://en.community.dell.com/techcenter/extras/m/white_papers/20161975/download
Und diese Antwort von einem der wenigen Dell-Supporttechniker, der mit dem Problem vertraut ist:
Die Kurzfassung lautet: C-States deaktivieren zusätzliche Prozessorkerne während Leerlaufzeiten. Bei VMs, die an einen Kern gebunden sind (das wird vom Betriebssystem gesteuert, ich glaube nicht, dass es konfigurierbar ist), kann dies dazu führen, dass sie sich aufhängen, da sie versuchen, Aktionen mit Ressourcen auszuführen, die in ihren Augen nicht mehr existieren.
Im Allgemeinen werden C-States normalerweise bei Elementen wie Backup-Servern und Servern mit sekundärer Rolle (Backup-DNS, DHCP, Domänencontroller usw.) verwendet, sodass die Backup-Server eingeschaltet bleiben können, sich jedoch in einem Energiesparmodus befinden, um Energie zu sparen.
Weitere Dokumentation finden Sie hier:
http://en.wikipedia.org/wiki/Advanced_Configuration_and_Power_Interface
Kurz gesagt: Der Leerlauf eines Dell-Servers sollte für Hypervisor-Hosts immer ausgeschaltet sein (auf Leistung eingestellt).
Danke an Eddy Simons von der Kitsap Bank, der mir geholfen hat, diese Lösung zu finden.
Antwort2
Es ist unklar, wo das Problem liegt. Das wissen Sie bereits. Wir haben keine Möglichkeit, Ihnen die Ursache zu nennen.
Sie können jedoch einige Tests durchführen:
Erstellen Sie VM 1
- Führen Sie auf dieser VM ständig eine CPU-intensive Aufgabe aus
(führen Sie Millionen komplexer mathematischer Berechnungen pro Sekunde aus).
- Führen Sie auf dieser VM ständig eine CPU-intensive Aufgabe aus
Erstellen Sie VM 2
- Führen Sie auf dieser VM ständig eine RAM-intensive Aufgabe aus
(Erstellen Sie ein riesiges Array im Speicher, löschen Sie es, wiederholen Sie den Vorgang).
- Führen Sie auf dieser VM ständig eine RAM-intensive Aufgabe aus
Erstellen Sie VM 3
- Führen Sie auf dieser VM ständig eine Festplatten-intensive Aufgabe aus
(Lesen/Schreiben/Löschen von Millionen von Zeilen in/aus einer Datei)
- Führen Sie auf dieser VM ständig eine Festplatten-intensive Aufgabe aus
Erstellen Sie VM 4
- Führen Sie auf dieser VM ständig eine NETZWERKintensive Aufgabe aus
(Kopieren von Dateien zu/von einer SMB-Freigabe)
- Führen Sie auf dieser VM ständig eine NETZWERKintensive Aufgabe aus
Warten Sie, bis das Problem erneut auftritt, und beobachten Sie die Leistungsdaten auf jedem dieser Server.
Welcher war am stärksten betroffen?
Gab es welche, die überhaupt nicht betroffen waren?
Ich vermute, dass Ihre Festplatten schlecht sind und die CPU wartet, bis die E/A-Vorgänge abgeschlossen sind, bevor sie fortfahren kann. Dies kann bei manchen Anwendungen zu einer CPU-Auslastung führen.
Antwort3
Ich bin froh, dass ich das gefunden habe. Ich habe einen 2012R2-Server, auf dem Hyper-V läuft. AMD, 6-Core-CPU. Er lief über ein Jahr lang einwandfrei. Plötzlich sah ich VMs, zu denen keine Verbindung hergestellt werden konnte – weder mit RDP noch mit Hyper-V Connect. Die einzige Möglichkeit war, die VM AUSZUSCHALTEN. Beim Herunterfahren kam keine Reaktion. Also ... den virtuellen Stecker aus der Wand ziehen. Einschalten.
Das Symptom bestand darin, dass die einzelne Maschine scheinbar 100 % der ihr zugewiesenen CPU nutzte (Beispiel: Bei einer Ein-Core-VM auf einem Sechs-Core-Host lag die Auslastung bei 16 %.
Das Problem trat sporadisch auf. Es gab keinen erkennbaren Sinn und Zweck.
Schließlich fiel mir auf, dass dies mit meinem fehlgeschlagenen Versuch zusammenhing, auf diesem Motherboard von 32 auf 64 GB aufzurüsten. DAS Problem bestand darin, dass ich 1, 2 oder 3 16-GB-Speicherriegel für 16, 32 oder 48 GB zum Laufen bringen konnte, aber nicht vier Riegel für 64 GB. Viel Herumprobieren mit BIOS-Einstellungen usw. Keine Freude an dieser Front. Dann entdeckte ich die wunderbare Funktion der VM zum Aktivieren des dynamischen Speichers. Es stellte sich heraus, dass ich doch ohne die 64 GB überleben konnte!!
Ich vermute, dass ich beim Herumprobieren die Energieverwaltung für die CPU aktiviert habe und dann dieses Problem aufgetreten ist.
Ich habe APM im BIOS ausgeschaltet. Es wird ein paar Tage dauern, bis ich zu 60 % sicher bin, dass das Problem dadurch behoben wurde. Ein paar Wochen, um den Sieg zu verkünden. Aber das FÜHLT sich wie ein guter Grund für das Problem an.
Es sind nun 24 Stunden vergangen und bisher ist alles gut.
Daumen drücken.
Danke für die Auskunft!!