무작위 서버 재부팅을 일으키는 ECC 메모리 오류

무작위 서버 재부팅을 일으키는 ECC 메모리 오류

Supermicro X10SLM-F / Xeon E3-1271 v3에서 우분투 서버 14.04를 실행하고 있습니다.

메모리: SuperTalent 32GB DDR3 1600 ECC

약 4일마다 Ubuntu 로그에 다음이 표시됩니다.

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:  fru_text: CorrectedErr
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

그 직후 서버는 "전원 주기" 방식으로 자체 재부팅됩니다.

BIOS 이벤트 로그를 보면 다음과 같습니다.

DATE            TIME           ERROR CODE      SEVERITY
06/13/15      13:13:38      Smbios 0x02         P1-DIMMB2

그리고 오류에 대한 설명은 다음과 같습니다.

Single Bit ECC Memory Error

Ubuntu의 ipmitool은 다음을 보여줍니다.

ipmitool sel elist
...
...
  1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
  1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8

몇 가지 질문:

  1. ECC 메모리가 자체 수정되는 경우 시스템이 자체적으로 재부팅되는 이유는 무엇입니까?

  2. 아마도 BIOS에서 상자 자체 재부팅을 중지하는 일부 설정이 누락된 것일까요?

  3. 이것은 분명히 메모리 스틱 문제입니까, 아니면 슬롯 문제이거나 CPU 문제일 수 있습니까?

  4. 서버 재부팅을 중지하는 방법은 무엇입니까?

어떤 조언이라도 감사드립니다.

답변1

수정 가능한 메모리 오류가 발생한 경우 시스템을 재부팅하면 안 됩니다. 를 통해 추가 정보/패턴을 볼 수 있나요 ipmitool sel elist? BMC 감시 장치가 시스템을 재부팅할 수 있습니다. 를 통해 활성화되어 있는지 확인하세요 ipmitool mc watchdog get. 불량 메모리 모듈의 위치에 대한 정보가 이미 있으므로 이를 교체하십시오. 문제가 다시 나타나면 메모리 슬롯에 결함이 있을 수 있습니다.

X10SLM-F사용하는 RAM은 테스트된 RAM 모듈 목록에 없습니다. 가능하다면 '문제' 시스템의 모든 메모리 바를 동등한 Supermicro 테스트를 거친 시스템으로 교체하세요. 또한 Ubuntu 버전에 대해 지원되는 OS 목록을 확인하세요.

CMOS 설정과 관련하여 Supermicro SUMSUM 키가 설치된 경우 를 사용하여 모든 시스템에서 BIOS 설정을 덤프한 다음 vimdiff시스템과 비교하여 정기적으로 재부팅하는 시스템에 대해 다른 CMOS 매개변수가 있는지 확인할 수 있습니다( s) 그렇지 않습니다.

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf

답변2

Supermicro 하드웨어이므로 저렴하고 Dell, HP 또는 IBM의 세련미와 통합이 부족합니다.

ECC RAM은 오류를 수정하고 있지만 임계값을 초과했을 가능성이 있습니다. 문제의 DIMM에 오류가 있을 수 있으므로 교체를 계획해야 합니다.

슬롯별로 모듈을 식별하고 교체할 수 있습니다. 이는 빈도에 따라 발생하므로 문제를 쉽게 판단할 수 있습니다.

또한,관련 질문이 질문의 오른쪽에.

답변3

나는 이 보드, rev 1.02에서 동일한 문제를 보았습니다. 특별한 문제가 있는 것 같아요. 저는 SM 보드를 많이 구입하는데 보통 꽤 좋습니다. DIMM을 다 채우면 이 보드에 문제가 있는 것 같아요. 예를 들어, Windows를 사용하고 있는데 블루 스크린이 나타납니다.

16GB(슬롯 2개만)로 실행해 보면 문제가 사라질 것이라고 장담합니다. 이것이 해결책은 아니지만 이상한 동작을 진단하는 데 도움이 될 것이라는 것을 알고 있습니다. 심지어 SM에 보드를 보냈더니 괜찮다고 하더군요. 아마도 4개의 DIMM으로 테스트하지 않았을 수도 있습니다.

관련 정보