MCE-Fehlercodes/Rosa Bildschirm – Sollten diese ein Grund zur Sorge sein?

MCE-Fehlercodes/Rosa Bildschirm – Sollten diese ein Grund zur Sorge sein?

Ich habe mir vor Kurzem ein Serversystem samt Serverperipheriegeräten gekauft. Ich verfüge über eine Lizenz für ESXi 6 und habe alle aktuellen Patches installiert. Das System läuft jetzt seit etwa 2 Wochen und plötzlich ist es komplett abgestürzt.

Ich habe diesen Fehlercode als „Interner Timerfehler“ interpretiert. Ich habe die Informationen an SuperMicro weitergeleitet, bin aber ehrlich gesagt nicht sehr zuversichtlich, was ihre Antworten bisher angeht. Meine Interpretation war, dass das System einfach nicht abstürzen sollte – aus dem Grund, dass es ein Xeon mit ECC-Speicher ist, auf dem ESXi läuft.

Ist es möglich, dass dies ein einmaliger Fehler war und nicht wieder vorkommen sollte? Wie würden Sie damit umgehen? Ich suche nach Ratschlägen von Leuten, die diese Art von Fehlern gesehen haben und wissen möchten, was sie letztendlich tatsächlich tun.

Absturz

Antwort1

Sie sehen diesen Fehler (MCE, Machine Check Exception) genau deshalb, weil er über ECC-RAM verfügt.

Irgendwo ist die Hardware defekt, höchstwahrscheinlich ein Speicherstick, aber möglicherweise auch ein oder mehrere Prozessoren (vielleicht CPU 10?) oder irgendetwas dazwischen. Rufen Sie Ihren Supportvertrag auf.

Es können auch andere Teile der Hardware sein, aber jedes Mal, wenn ich dies gesehen habe, war es fehlerhafter ECC-RAM mit Mehrbitfehlern. Wenn der MCE als „interner Timerfehler“ dekodiert wird, ist das nächstwahrscheinlichste eine fehlerhafte CPU oder Hauptplatine.

Antwort2

Ja, das ist besorgniserregend. Der Server ist abgestürzt!

Überprüfen Sie Ihren RAM und Ihre CPU-Sockelpins (wenn Sie den Server von Hand zusammengebaut haben).

Das sind so ziemlich alle Informationen, die Sie erhalten. Sie können einen Supportfall bei VMware eröffnen und der Crash Dump wird für Sie analysiert.

verwandte Informationen