
私はSupermicro X10SLM-F / Xeon E3-1271 v3でUbuntuサーバー14.04を実行しています
メモリ: SuperTalent 32GB DDR3 1600 ECC
約 4 日ごとに、Ubuntu のログに次のように表示されます。
{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]: Error 0, type: corrected
{1}[Hardware Error]: fru_text: CorrectedErr
{1}[Hardware Error]: section_type: memory error
[Firmware Warn]: error section length is too small
この直後、サーバーは「電源サイクル」方式で再起動します。
BIOS イベント ログを見ると、次のようになっています。
DATE TIME ERROR CODE SEVERITY
06/13/15 13:13:38 Smbios 0x02 P1-DIMMB2
エラーの説明は次のとおりです。
Single Bit ECC Memory Error
Ubuntu の ipmitool は次のように表示します:
ipmitool sel elist
...
...
1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8
いくつかの質問:
ECC メモリが自己修正型である場合、マシンはなぜ自動的に再起動するのでしょうか?
おそらく、ボックスが自動的に再起動しないようにする BIOS の設定が欠けているのでしょうか?
これは明らかにメモリスティックの問題ですか、それともスロットの問題または CPU の問題でしょうか?
サーバーの再起動を停止するにはどうすればよいですか?
アドバイスをいただければ幸いです。
答え1
修正可能なメモリ エラーが発生した場合、システムは再起動しません。 で追加情報/パターンが表示されますかipmitool sel elist
? BMC ウォッチドッグはシステムを再起動できますipmitool mc watchdog get
。 で有効になっているかどうかを確認してください。不良メモリ モジュールの場所に関する情報はすでにあるため、それを交換してください。問題が再び発生する場合は、メモリ スロットに問題がある可能性があります。
X10SLM-F使用している RAM がテスト済みの RAM モジュールのリストに載っていない場合、可能であれば、「問題のある」システムのすべてのメモリ バーを、Supermicro でテスト済みの同等のものに交換してください。また、Ubuntu バージョンでサポートされている OS のリストを確認してください。
CMOS 設定に関連して、Supermicro SUM
SUM キーがインストールされている場合は、 を使用してすべてのシステムから BIOS 設定をダンプし、vimdiff
定期的に再起動するシステムと再起動しないシステムで CMOS パラメータが異なるかどうかを確認できます。
sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf
答え2
これは Supermicro のハードウェアなので、安価で、Dell、HP、IBM のような洗練性と統合性がありません...
ECC RAM はエラーを修正しますが、しきい値を超えている可能性があります。問題の DIMM は故障している可能性があり、交換を計画する必要があります。
スロットごとにモジュールを識別し、交換してみることができます。これは頻繁に発生するため、問題を特定するのは簡単です。
また、関連する質問この質問の右側にあります。
答え3
このボード、リビジョン 1.02 でも同じ問題が発生しています。特定の問題があると思います。私は SM ボードをたくさん購入していますが、通常は非常に優れています。すべての DIMM が装着されている場合、このボードに問題があると思います。たとえば、Windows を使用していると、ブルー スクリーンが表示されます。
16GB (スロットは 2 つだけ) で実行してみると、問題は解消されるはずです。これが解決策ではないことは承知していますが、異常な動作を診断するのに役立ちます。ボードを SM に送り返したところ、問題ないと言われました。おそらく、4 つの DIMM でテストしなかったのでしょう。