
我在 Supermicro X10SLM-F / Xeon E3-1271 v3 上運行 ubuntu 伺服器 14.04
記憶體:SuperTalent 32GB DDR3 1600 ECC
大約每 4 天,Ubuntu 上的日誌就會顯示以下內容:
{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]: Error 0, type: corrected
{1}[Hardware Error]: fru_text: CorrectedErr
{1}[Hardware Error]: section_type: memory error
[Firmware Warn]: error section length is too small
此後,伺服器立即以「電源循環」方式自行重新啟動。
當我查看 BIOS 事件日誌時,我看到以下內容:
DATE TIME ERROR CODE SEVERITY
06/13/15 13:13:38 Smbios 0x02 P1-DIMMB2
而錯誤的描述是:
Single Bit ECC Memory Error
Ubuntu 中的 ipmitool 顯示如下:
ipmitool sel elist
...
...
1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8
幾個問題:
如果 ECC 記憶體可以自我修正,為什麼機器會自行重新啟動?
我是否可能在 BIOS 中遺漏了一些阻止盒子自行重新啟動的設定?
這顯然是記憶體條問題還是插槽問題或 CPU 問題?
如何阻止伺服器重新啟動?
感謝您的任何建議。
答案1
系統不應因可糾正記憶體錯誤而重新啟動。您是否透過 看到其他資訊/模式ipmitool sel elist
? BMC 看門狗可以重新啟動系統,檢查是否通過 啟用ipmitool mc watchdog get
。由於您已經掌握了損壞記憶體模組位置的信息,請將其更換,如果問題再次出現,則記憶體插槽可能有問題。
X10SLM-F您使用的 RAM 不在經過測試的 RAM 模組清單中 - 如果有可能,請將「問題」系統中的所有記憶體條替換為經過 Supermicro 測試的同等記憶體條。另外,請檢查您的 Ubuntu 版本支援的作業系統清單。
與 CMOS 設定相關,Supermicro SUM
如果您安裝了 SUM 鍵,您可以使用 轉儲所有系統的 BIOS 設定,然後vimdiff
查看定期重新啟動的系統與系統相比是否有任何 CMOS 參數不同( s) 沒有。
sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf
答案2
它是 Supermicro 硬件,因此價格便宜,並且缺乏 Dell、HP 或 IBM 的完善和集成...
ECC RAM 可以糾錯,但可能會超過一個閾值。有問題的 DIMM 可能會發生故障,您應該計劃更換它。
您可以嘗試透過插槽識別模組並更換它。由於這種情況經常發生,因此很容易確定問題所在。
另外,看看相關問題到這個問題的右邊。
答案3
我在這塊版本 1.02 的主機板上看到了同樣的問題。我認為它有一個特定的問題。我買了很多SM板,它們通常都很好。我認為如果所有 DIMM 都已填充,則該板存在問題。例如,我使用的是 Windows,但出現藍色畫面。
嘗試僅使用 16GB(僅 2 個插槽)運行,我敢打賭問題就會消失。我知道這不是一個解決方案,但有助於診斷奇怪的行為。我甚至將一塊板寄回給 SM,他們說沒問題,也許他們沒有使用 4 個 DIMM 進行測試。