記憶體日誌中出現 CE 錯誤

記憶體日誌中出現 CE 錯誤

我有 HP 伺服器 (DL360-G7),並在其上運行 Centos7 + cPanel。在 /var/log/message 中我看到此錯誤:

EDAC MC0: 5450 CE error on CPU#0Channel#1_DIMM#0 (channel:1 slot:0

我更改了伺服器中的 RAM 和記憶體插槽,但仍然存在錯誤:

EDAC MC0: 25509 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0

當我運行這個命令時:

grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count

我看到這個輸出:

/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:5067071

/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0

ILO面板中沒有任何錯誤!

有什麼問題?

答案1

從上面的日誌我們可以說錯誤是可糾正的錯誤,從(通道:1插槽:0和通道:0插槽:0)意味著2個通道有問題(可糾正的問題)。 Channel是記憶體控制器通道,負責與一組DIMM進行通訊。每個通道都有自己獨立的控制(命令)和資料匯流排,可以獨立使用或與其他通道組合使用。檢查此頁面https://www.kernel.org/doc/html/latest/driver-api/edac.html?highlight=edac#main-concepts-used-at-the-edac-subsystem。如果計數太高,最好更換 DIMM 並檢查主機板是否有硬體錯誤,有時問題不在於 DIMM,而可能在於主機板本身。您可以忽略少量的 CE 錯誤。

相關內容