Ich habe eine Festplatte in einem Software-RAID-1 mit zwei Festplatten, bei der vor Kurzem im SMART-Status die Meldung „Offline, nicht korrigierbarer Sektor“ aufgetaucht ist.
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 1
Dies ist offenbar nur dann ein Anzeichen für einen drohenden Festplattenausfall, wenn es häufiger vorkommt (und da das Laufwerk gespiegelt ist, besteht auch kein großes Risiko eines echten Datenverlusts). Ein Selbsttest ist damals auch irgendwann fehlgeschlagen und hat smartd
mir, wie es sich gehört, eine E-Mail geschickt, um mich darüber zu informieren.
Das Schreiben in den beschädigten Sektor führt jedoch normalerweise dazu, dass die Festplatte stattdessen einen ihrer Ersatzsektoren verwendet, was anscheinend auch der Fall war, denn seit ich dd
die Festplatte überschrieben habe, liefen alle Selbsttests einwandfrei. Und badblocks
ich fand auch keinen Grund zur Beanstandung.
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
[...]
# 5 Extended offline Completed without error 00% 5559 -
# 6 Short offline Completed without error 00% 5540 -
# 7 Short offline Completed: read failure 90% 5524 63273368
Die Anzahl der fehlerhaften Sektoren hat sich jedoch nicht verringert, was auch nicht der Fall sein sollte, da der defekte Sektor immer noch vorhanden ist, wenn auch unbenutzt. Trotzdem smartd
schickt er mir weiterhin jede Nacht E-Mails:
The following warning/error was logged by the smartd daemon:
Device: /dev/sda [SAT], 1 Offline uncorrectable sectors
Das ist natürlich extrem ärgerlich und betäubt meinen gesunden Panikreflex gegenüber smartd
Mails.
Bei der Festplatte handelt es sich um eine Western Digital WD20EARS und die smartd
Version ist 5.41 2011-06-09 r3365.
Antwort1
Bei manchen Datenträgern müssen Sie möglicherweise auf -U 198+
(oder -U +
?) in der Konfigurationsdatei zurückgreifen.
Bitte seien Sie vorsichtig. Wenn Sie nicht der ursprüngliche Fragesteller sind, lesen Sie die gesamte Frage sorgfältig durch. Wenn Sie dies auf einer Festplatte verwenden, die es nicht benötigt, werden völlig gültige Warnungen unterdrückt.
Wenn ´+´ angegeben ist, wird nur dann ein Bericht gedruckt, wenn die Anzahl der Sektoren seit dem letzten Prüfzyklus zugenommen hat. Einige Festplatten setzen dieses Attribut nicht zurück, wenn ein fehlerhafter Sektor neu zugewiesen wird. Siehe auch ´-v 198,increasing´ weiter unten.
Angenommen, Sie verwenden die Standardkonfiguration in smartd.conf
. In diesem Fall enthält die Datei viele Kommentare, aber die einzige Zeile ohne Kommentar ist diese:
# The word DEVICESCAN will cause any remaining lines in this
# configuration file to be ignored: it tells smartd to scan for all
# ATA and SCSI devices. DEVICESCAN may be followed by any of the
# Directives listed below, which will be applied to all devices that
# are found. Most users should comment out DEVICESCAN and explicitly
# list the devices that they wish to monitor.
DEVICESCAN
Fügen Sie die Option am Ende der Zeile hinzu:
DEVICESCAN -U 198+
Antwort2
Es gibt zwei Möglichkeiten, woher diese Mails kommen. smartd kann selbst Mails verschicken, ist aber höchstwahrscheinlich nicht so konfiguriert, daher gehe ich davon aus, dass diese Mails per Logcheck verschickt werden. Wenn diese Annahme falsch ist, müssen Sie nicht weiterlesen.
logcheck durchsucht die Protokolldateien und sendet E-Mails, wenn es der Meinung ist, dass Sie sich über irgendetwas Sorgen machen sollten, das mit/auf Ihrem System passiert ist.
Sie haben die Möglichkeit, eine Logcheck-Ignorierregel zu schreiben, die Logcheck anweist, keine Nachrichten zu senden, die einem bestimmten Muster entsprechen.
Sie könnten (unter Debian-basierten Systemen) eine Datei namens „/etc/logcheck/ignore.d.server/smartd_own“ mit folgendem Inhalt erstellen:
^\w{3} [ :0-9]{11} [._[:alnum:]-]+ smartd\[[0-9]+\]: Device: /dev/sda \[SAT\], 1 Offline uncorrectable sectors$
Dadurch werden die lästigen E-Mails herausgefiltert, Sie werden aber erneut benachrichtigt, wenn der Zähler für nicht korrigierbare Sektoren steigt.