ECC 記憶體錯誤導致伺服器隨機重啟

ECC 記憶體錯誤導致伺服器隨機重啟

我在 Supermicro X10SLM-F / Xeon E3-1271 v3 上運行 ubuntu 伺服器 14.04

記憶體:SuperTalent 32GB DDR3 1600 ECC

大約每 4 天,Ubuntu 上的日誌就會顯示以下內容:

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:  fru_text: CorrectedErr
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

此後,伺服器立即以「電源循環」方式自行重新啟動。

當我查看 BIOS 事件日誌時,我看到以下內容:

DATE            TIME           ERROR CODE      SEVERITY
06/13/15      13:13:38      Smbios 0x02         P1-DIMMB2

而錯誤的描述是:

Single Bit ECC Memory Error

Ubuntu 中的 ipmitool 顯示如下:

ipmitool sel elist
...
...
  1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
  1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8

幾個問題:

  1. 如果 ECC 記憶體可以自我修正,為什麼機器會自行重新啟動?

  2. 我是否可能在 BIOS 中遺漏了一些阻止盒子自行重新啟動的設定?

  3. 這顯然是記憶體條問題還是插槽問題或 CPU 問題?

  4. 如何阻止伺服器重新啟動?

感謝您的任何建議。

答案1

系統不應因可糾正記憶體錯誤而重新啟動。您是否透過 看到其他資訊/模式ipmitool sel elist? BMC 看門狗可以重新啟動系統,檢查是否通過 啟用ipmitool mc watchdog get。由於您已經掌握了損壞記憶體模組位置的信息,請將其更換,如果問題再次出現,則記憶體插槽可能有問題。

X10SLM-F您使用的 RAM 不在經過測試的 RAM 模組清單中 - 如果有可能,請將「問題」系統中的所有記憶體條替換為經過 Supermicro 測試的同等記憶體條。另外,請檢查您的 Ubuntu 版本支援的作業系統清單。

與 CMOS 設定相關,Supermicro SUM如果您安裝了 SUM 鍵,您可以使用 轉儲所有系統的 BIOS 設定,然後vimdiff查看定期重新啟動的系統與系統相比是否有任何 CMOS 參數不同( s) 沒有。

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf

答案2

它是 Supermicro 硬件,因此價格便宜,並且缺乏 Dell、HP 或 IBM 的完善和集成...

ECC RAM 可以糾錯,但可能會超過一個閾值。有問題的 DIMM 可能會發生故障,您應該計劃更換它。

您可以嘗試透過插槽識別模組並更換它。由於這種情況經常發生,因此很容易確定問題所在。

另外,看看相關問題到這個問題的右邊。

答案3

我在這塊版本 1.02 的主機板上看到了同樣的問題。我認為它有一個特定的問題。我買了很多SM板,它們通常都很好。我認為如果所有 DIMM 都已填充,則該板存在問題。例如,我使用的是 Windows,但出現藍色畫面。

嘗試僅使用 16GB(僅 2 個插槽)運行,我敢打賭問題就會消失。我知道這不是一個解決方案,但有助於診斷奇怪的行為。我甚至將一塊板寄回給 SM,他們說沒問題,也許他們沒有使用 4 個 DIMM 進行測試。

相關內容