ECC メモリ エラーによりサーバーがランダムに再起動する

ECC メモリ エラーによりサーバーがランダムに再起動する

私はSupermicro X10SLM-F / Xeon E3-1271 v3でUbuntuサーバー14.04を実行しています

メモリ: SuperTalent 32GB DDR3 1600 ECC

約 4 日ごとに、Ubuntu のログに次のように表示されます。

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:  fru_text: CorrectedErr
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

この直後、サーバーは「電源サイクル」方式で再起動します。

BIOS イベント ログを見ると、次のようになっています。

DATE            TIME           ERROR CODE      SEVERITY
06/13/15      13:13:38      Smbios 0x02         P1-DIMMB2

エラーの説明は次のとおりです。

Single Bit ECC Memory Error

Ubuntu の ipmitool は次のように表示します:

ipmitool sel elist
...
...
  1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
  1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8

いくつかの質問:

  1. ECC メモリが自己修正型である場合、マシンはなぜ自動的に再起動するのでしょうか?

  2. おそらく、ボックスが自動的に再起動しないようにする BIOS の設定が欠けているのでしょうか?

  3. これは明らかにメモリスティックの問題ですか、それともスロットの問題または CPU の問題でしょうか?

  4. サーバーの再起動を停止するにはどうすればよいですか?

アドバイスをいただければ幸いです。

答え1

修正可能なメモリ エラーが発生した場合、システムは再起動しません。 で追加情報/パターンが表示されますかipmitool sel elist? BMC ウォッチドッグはシステムを再起動できますipmitool mc watchdog get。 で有効になっているかどうかを確認してください。不良メモリ モジュールの場所に関する情報はすでにあるため、それを交換してください。問題が再び発生する場合は、メモリ スロットに問題がある可能性があります。

X10SLM-F使用している RAM がテスト済みの RAM モジュールのリストに載っていない場合、可能であれば、「問題のある」システムのすべてのメモリ バーを、Supermicro でテスト済みの同等のものに交換してください。また、Ubuntu バージョンでサポートされている OS のリストを確認してください。

CMOS 設定に関連して、Supermicro SUMSUM キーがインストールされている場合は、 を使用してすべてのシステムから BIOS 設定をダンプし、vimdiff定期的に再起動するシステムと再起動しないシステムで CMOS パラメータが異なるかどうかを確認できます。

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf

答え2

これは Supermicro のハードウェアなので、安価で、Dell、HP、IBM のような洗練性と統合性がありません...

ECC RAM はエラーを修正しますが、しきい値を超えている可能性があります。問題の DIMM は故障している可能性があり、交換を計画する必要があります。

スロットごとにモジュールを識別し、交換してみることができます。これは頻繁に発生するため、問題を特定するのは簡単です。

また、関連する質問この質問の右側にあります。

答え3

このボード、リビジョン 1.02 でも同じ問題が発生しています。特定の問題があると思います。私は SM ボードをたくさん購入していますが、通常は非常に優れています。すべての DIMM が装着されている場合、このボードに問題があると思います。たとえば、Windows を使用していると、ブルー スクリーンが表示されます。

16GB (スロットは 2 つだけ) で実行してみると、問題は解消されるはずです。これが解決策ではないことは承知していますが、異常な動作を診断するのに役立ちます。ボードを SM に送り返したところ、問題ないと言われました。おそらく、4 つの DIMM でテストしなかったのでしょう。

関連情報