ECC 記憶體錯誤導致伺服器隨機重啟

Question 1

系統不應因可糾正記憶體錯誤而重新啟動。您是否透過看到其他資訊/模式ipmitool sel elist？ BMC 看門狗可以重新啟動系統，檢查是否通過啟用ipmitool mc watchdog get。由於您已經掌握了損壞記憶體模組位置的信息，請將其更換，如果問題再次出現，則記憶體插槽可能有問題。

X10SLM-F您使用的 RAM 不在經過測試的 RAM 模組清單中 - 如果有可能，請將「問題」系統中的所有記憶體條替換為經過 Supermicro 測試的同等記憶體條。另外，請檢查您的 Ubuntu 版本支援的作業系統清單。

與 CMOS 設定相關，Supermicro SUM如果您安裝了 SUM 鍵，您可以使用轉儲所有系統的 BIOS 設定，然後vimdiff查看定期重新啟動的系統與系統相比是否有任何 CMOS 參數不同（ s) 沒有。

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf

Answer

系統不應因可糾正記憶體錯誤而重新啟動。您是否透過看到其他資訊/模式ipmitool sel elist？ BMC 看門狗可以重新啟動系統，檢查是否通過啟用ipmitool mc watchdog get。由於您已經掌握了損壞記憶體模組位置的信息，請將其更換，如果問題再次出現，則記憶體插槽可能有問題。

X10SLM-F您使用的 RAM 不在經過測試的 RAM 模組清單中 - 如果有可能，請將「問題」系統中的所有記憶體條替換為經過 Supermicro 測試的同等記憶體條。另外，請檢查您的 Ubuntu 版本支援的作業系統清單。

與 CMOS 設定相關，Supermicro SUM如果您安裝了 SUM 鍵，您可以使用轉儲所有系統的 BIOS 設定，然後vimdiff查看定期重新啟動的系統與系統相比是否有任何 CMOS 參數不同（ s) 沒有。

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf

Question 2

它是 Supermicro 硬件，因此價格便宜，並且缺乏 Dell、HP 或 IBM 的完善和集成...

ECC RAM 可以糾錯，但可能會超過一個閾值。有問題的 DIMM 可能會發生故障，您應該計劃更換它。

您可以嘗試透過插槽識別模組並更換它。由於這種情況經常發生，因此很容易確定問題所在。

另外，看看相關問題到這個問題的右邊。

Answer