Ich habe eine E-Mail von einem Benutzer erhalten, der besorgt ist, dass die folgenden Fehler auf einem seiner Server auf ein ernstes Problem hinweisen. Das Problem ist, dass die folgenden Fehleralledass ich weitermachen muss. Normalerweise halte ich mich für einen anständigen Googler, aber in diesem Fall kann ich nur findeneinsanderer Vorfall, bei dem die Benutzer auf diesen Fehler bezüglich „Probe-Filterverzeichnis“ gestoßen sind:
[1044 snapshots @ abc]$
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: CPU:0
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: MC4_ADDR: 0x0000000000010f40
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the
Probe Filter directory.
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN
Soweit ich weiß, ist das nur einmal passiert. Wenn ich in den Protokollen nach anderen Hardwarefehlern suche, finde ich nichts anderes als diesen einen Vorfall.
Der Forumsbeitrag, auf den ich mich oben beziehe, endet im Wesentlichen damit, dass dem Benutzer gesagt wird, er solle sich keine Sorgen machen, wenn es nur einmal passiert sei und keine schwerwiegenden Probleme verursacht habe. Dies ist derselbe Rat, den ich von meinen Kollegen bekommen habe, die ebenfalls erwähnten, dass es zu viele Variablen gibt (z. B. was lief am 8. September um 2:50 Uhr?).
Dieser Benutzer möchte jedoch sichergehen, dass mit seinem System alles in Ordnung ist. Was können die oben genannten Fehler anzeigen oder womit können sie zusammenhängen? Was ist das „Probe Filter-Verzeichnis“? Welche Tests kann ich ausführen, um den Benutzer zu beruhigen, dass dies nicht bedeutet, dass sein Computer dem Untergang geweiht ist?
Die Linux-Distribution der Maschine ist Red Hat Enterprise Linux Server Release 6.4 (Santiago).
Antwort1
Ich habe keine genaue Antwort, aber einiges davon kommt mir bekannt vor. Ich weiß nicht, was ein Probe-Filter-Verzeichnis ist, aber CptSupermrkt hat das oben erklärt.
Bei PCI stellt eine Northbridge eine Verbindung zum Speicher und zum Prozessor her. ECC-Fehler sind mit DRAM verknüpft. Mit jedem Wort werden Fehlerkorrekturcodebits gespeichert. Beim Lesen werden sie überprüft, beim Schreiben werden sie aktualisiert. ECC-Fehler sind korrigierbar oder nicht korrigierbar, was darauf hinweist, dass ein Fehler mithilfe der geschriebenen Bits korrigiert werden kann. Nicht korrigierbar bedeutet nicht, dass ein permanenter Hardwarefehler vorliegt. Diese können auftreten, wenn DRAM zu versagen beginnt.
Aus all dem lässt sich schließen, dass es sich um einen vorübergehenden Fehler handelt. Sie können einen vollständigen Speichertest durchführen, aber dabei werden Sie wahrscheinlich nichts finden. Wenn der DRAM ausgefallen ist, besteht Ihre einzige Abhilfemaßnahme darin, ihn zu ersetzen.