ECC-Speicherfehler verursachen zufällige Serverneustarts

ECC-Speicherfehler verursachen zufällige Serverneustarts

Ich verwende Ubuntu Server 14.04 auf Supermicro X10SLM-F / Xeon E3-1271 v3

Speicher: SuperTalent 32 GB DDR3 1600 ECC

Ungefähr alle 4 Tage zeigen die Protokolle unter Ubuntu Folgendes:

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:  fru_text: CorrectedErr
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

Unmittelbar danach führt der Server im Rahmen eines „Power-Cycle“-Neustarts einen Neustart durch.

Wenn ich in das BIOS-Ereignisprotokoll schaue, sehe ich Folgendes:

DATE            TIME           ERROR CODE      SEVERITY
06/13/15      13:13:38      Smbios 0x02         P1-DIMMB2

Und die Beschreibung des Fehlers lautet:

Single Bit ECC Memory Error

ipmitool in Ubuntu zeigt Folgendes:

ipmitool sel elist
...
...
  1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
  1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8

Ein paar Fragen:

  1. Wenn der ECC-Speicher selbstkorrigierend ist, warum startet die Maschine dann neu?

  2. Übersehe ich vielleicht eine Einstellung im BIOS, die einen Neustart der Box verhindert?

  3. Handelt es sich hier offensichtlich um ein Problem mit dem Speicherstick oder kann es auch ein Problem mit dem Steckplatz oder der CPU sein?

  4. Wie kann ich den Neustart des Servers verhindern?

Vielen Dank für jeden Rat.

Antwort1

Das System sollte bei einem korrigierbaren Speicherfehler nicht neu gestartet werden. Sehen Sie zusätzliche Informationen/Muster über ipmitool sel elist? Der BMC-Watchdog könnte das System neu starten. Überprüfen Sie über , ob er aktiviert ist ipmitool mc watchdog get. Da Sie bereits Informationen zum Speicherort des fehlerhaften Speichermoduls haben, ersetzen Sie es. Wenn das Problem erneut auftritt, könnte der Speichersteckplatz fehlerhaft sein.

X10SLM-FDer von Ihnen verwendete RAM steht nicht auf der Liste der getesteten RAM-Module. Wenn Sie die Möglichkeit haben, ersetzen Sie alle Speicherriegel in einem „Problemsystem“ durch gleichwertige, von Supermicro getestete. Überprüfen Sie auch die Liste der unterstützten Betriebssysteme für Ihre Ubuntu-Version.

In Bezug auf die CMOS-Einstellungen können Sie ( Supermicro SUMsofern Sie die SUM-Schlüssel installiert haben) verwenden, um die BIOS-Einstellungen aller Systeme zu sichern und dann vimdiffzu prüfen, ob es CMOS-Parameter gibt, die sich bei den Systemen mit regelmäßigem Neustart von denen bei den Systemen ohne Neustart unterscheiden.

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf

Antwort2

Es handelt sich um Supermicro-Hardware, daher ist sie preiswert, verfügt aber nicht über die Ausgereiftheit und Integration eines Dell-, HP- oder IBM-Geräts ...

ECC-RAM korrigiert zwar Fehler, aber es gibt einen Grenzwert, der wahrscheinlich überschritten wird. Das betreffende DIMM ist wahrscheinlich defekt und Sie sollten planen, es zu ersetzen.

Sie können versuchen, das Modul anhand des Steckplatzes zu identifizieren und auszutauschen. Da dies häufig vorkommt, lässt sich das Problem leicht ermitteln.

Schauen Sie sich auch dieVerwandte Fragenauf der rechten Seite dieser Frage.

Antwort3

Ich habe dasselbe Problem mit dieser Platine, rev 1.02, festgestellt. Ich denke, es liegt ein spezifisches Problem vor. Ich kaufe viele SM-Platinen und sie sind normalerweise ziemlich gut. Ich denke, dass es ein Problem mit dieser Platine gibt, wenn alle DIMMS belegt sind. Ich verwende beispielsweise Windows und bekomme einen blauen Bildschirm.

Versuchen Sie es einfach mit 16 GB (nur 2 Steckplätze) und ich wette, das Problem wird verschwinden. Ich weiß, das ist keine Lösung, aber es würde helfen, das seltsame Verhalten zu diagnostizieren. Ich habe sogar eine Platine an SM zurückgeschickt und sie sagten, sie sei in Ordnung, vielleicht haben sie nicht mit 4 DIMMs getestet.

verwandte Informationen