Ошибки памяти ECC, вызывающие случайные перезагрузки сервера

Ошибки памяти ECC, вызывающие случайные перезагрузки сервера

Я использую Ubuntu Server 14.04 на Supermicro X10SLM-F / Xeon E3-1271 v3

Память: SuperTalent 32 ГБ DDR3 1600 ECC

Примерно каждые 4 дня в журналах Ubuntu будет отображаться следующее:

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:  fru_text: CorrectedErr
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

Сразу после этого сервер перезагрузится в режиме «цикла-включения питания».

Когда я смотрю журнал событий BIOS, я вижу следующее:

DATE            TIME           ERROR CODE      SEVERITY
06/13/15      13:13:38      Smbios 0x02         P1-DIMMB2

А описание ошибки следующее:

Single Bit ECC Memory Error

ipmitool в Ubuntu показывает следующее:

ipmitool sel elist
...
...
  1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
  1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8

Несколько вопросов:

  1. Если память ECC самокорректируется, почему машина перезагружается сама?

  2. Может быть, я упускаю какую-то настройку в BIOS, которая не даст приставке перезагрузиться?

  3. Это явно проблема с картой памяти или это может быть проблема со слотом или процессором?

  4. Как остановить перезагрузку сервера?

Спасибо за любой совет.

решение1

Система не должна перезагружаться при исправимой ошибке памяти. Видите ли вы дополнительную информацию/шаблон через ipmitool sel elist? Сторожевой таймер BMC может перезагрузить систему, проверьте, включен ли он через ipmitool mc watchdog get. Поскольку у вас уже есть информация о местоположении неисправного модуля памяти, замените его, и если проблема проявится снова, неисправен слот памяти.

X10SLM-FОЗУ, которое вы используете, не входит в список протестированных модулей ОЗУ - если у вас есть возможность, замените все планки памяти в "проблемной" системе на эквивалентные, протестированные Supermicro. Также проверьте список поддерживаемых ОС для вашей версии Ubuntu.

Что касается настроек CMOS, вы можете использовать Supermicro SUM(при условии, что у вас установлены ключи SUM) для сброса настроек BIOS со всех систем, а затем vimdiffпосмотреть, есть ли какие-либо параметры CMOS, отличающиеся для систем, которые регулярно перезагружаются, по сравнению с системами, которые этого не делают.

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf

решение2

Это оборудование Supermicro, поэтому оно недорогое и ему не хватает отточенности и интеграции Dell, HP или IBM...

ECC RAM исправляет ошибки, но есть порог, который, вероятно, превышен. Вероятно, рассматриваемый DIMM неисправен, и вам следует запланировать его замену.

Вы можете попытаться определить модуль по слоту и заменить его. Поскольку это происходит с частотой, будет легко определить проблему.

Также посмотрите наПохожие вопросыв правую сторону этого вопроса.

решение3

Я видел ту же проблему с этой платой, rev 1.02. Я думаю, что у нее конкретная проблема. Я покупаю много плат SM, и они обычно довольно хороши. Я думаю, что с этой платой проблема, если все DIMM заполнены. Я использую Windows и получаю синий экран, например.

Попробуйте просто запустить с 16 ГБ (всего 2 слота) и я уверен, что проблема исчезнет. Я знаю, что это не решение, но это поможет диагностировать странное поведение. Я даже отправил плату обратно в SM, и они сказали, что с ней все в порядке, возможно, они не тестировали с 4 DIMM.

Связанный контент