MCE 錯誤代碼/粉紅螢幕 - 它們應該引起關注嗎?

MCE 錯誤代碼/粉紅螢幕 - 它們應該引起關注嗎?

因此,我最近購買了伺服器級系統以及所有伺服器級週邊設備。我已獲得 ESXi 6 的許可並安裝了所有最新補丁。系統現在已經運行了大約兩週,突然我完全崩潰了。

我將此錯誤代碼解釋為“內部計時器錯誤”。我已將訊息轉發給 SuperMicro,但說實話,到目前為止我對他們的回應不是很有信心。我的解釋是系統根本不應該崩潰 - 因為它是運行 ESXi 的帶有 ECC 內存的 Xeon。

這是否有可能是一次性錯誤並且不應再發生?你會如何處理這個問題?向那些見過這些類型的錯誤以及他們最終實際做了什麼的人尋求一些建議。

碰撞

答案1

您看到此錯誤(MCE,機器檢查異常)正是因為它具有 ECC RAM。

您的某個地方有一些損壞的硬件,很可能是一個記憶棒,但也可能是一個或多個處理器(也許是 CPU 10?)或介於兩者之間的東西。調用您的支援合約。

也可能是硬體的其他位,但每次我看到這種情況時,都是 ECC RAM 出現多個故障。如果 MCE 解碼為“內部計時器錯誤”,則下一個最可能的情況是 CPU 或主機板出現故障。

答案2

是的,這是一個令人擔憂的問題。伺服器崩潰了!

檢查您的 RAM 和 CPU 插槽引腳(如果您是手動組裝伺服器)。

這就是您將獲得的所有資訊。您可以向 VMware 開啟支援案例,他們將為您分析故障轉儲。

相關內容