У меня есть диск в двухдисковом программном RAID-1, у которого недавно в статусе SMART появился «неисправимый автономный сектор».
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 1
Это, по-видимому, является признаком неминуемого отказа диска, если это происходит все чаще (и поскольку диск зеркальный, нет большого риска реальной потери данных). В то время самотестирование также в какой-то момент дало сбой и smartd
отправило мне электронное письмо, чтобы уведомить меня об этом, как это, конечно, и должно быть.
Однако запись в поврежденный сектор обычно заставляет диск использовать один из своих запасных секторов, что, по-видимому, и произошло, поскольку с тех пор, как я dd
перезаписал диск, все самотесты прошли нормально. И badblocks
также не нашел причин для жалоб.
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
[...]
# 5 Extended offline Completed without error 00% 5559 -
# 6 Short offline Completed without error 00% 5540 -
# 7 Short offline Completed: read failure 90% 5524 63273368
Количество неисправных секторов не уменьшилось, хотя и не должно было уменьшаться, так как неисправный сектор все еще там, хотя и не используется. Однако smartd
продолжает присылать мне письма каждую ночь:
The following warning/error was logged by the smartd daemon:
Device: /dev/sda [SAT], 1 Offline uncorrectable sectors
Это, конечно, крайне раздражает и притупляет мой здоровый панический рефлекс по отношению к smartd
письмам.
Диск — Western Digital WD20EARS, smartd
версия — 5.41 2011-06-09 r3365.
решение1
На некоторых дисках вам, возможно, придется прибегнуть к -U 198+
(или -U +
?) в файле конфигурации.
Пожалуйста, будьте осторожны. Если вы не являетесь изначальным задающим, внимательно прочитайте весь вопрос. Если вы используете это на диске, который в этом не нуждается, это подавит полностью обоснованные предупреждения.
Если указано ´+´, отчет печатается только в том случае, если количество секторов увеличилось с момента последнего цикла проверки. Некоторые диски не сбрасывают этот атрибут при перераспределении плохого сектора. См. также ´-v 198,increising´ ниже.
Например, предположим, что вы используете конфигурацию по умолчанию в smartd.conf
. В этом случае в файле много комментариев, но единственная строка без комментариев находится здесь:
# The word DEVICESCAN will cause any remaining lines in this
# configuration file to be ignored: it tells smartd to scan for all
# ATA and SCSI devices. DEVICESCAN may be followed by any of the
# Directives listed below, which will be applied to all devices that
# are found. Most users should comment out DEVICESCAN and explicitly
# list the devices that they wish to monitor.
DEVICESCAN
Добавьте опцию в конец строки:
DEVICESCAN -U 198+
решение2
есть две возможности, откуда приходят эти письма. smartd может отправлять письма сам по себе, но, скорее всего, он не настроен таким образом, поэтому я предполагаю, что эти письма отправляются logcheck. Если это предположение неверно, вам не нужно читать дальше.
logcheck сканирует файлы журналов и отправляет электронные письма, если считает, что вам следует беспокоиться о чем-либо, произошедшем с/в вашей системе.
У вас есть возможность написать правило игнорирования logcheck, которое сообщает logcheck не отправлять сообщения, соответствующие определенному шаблону.
Вы можете (в системах на базе Debian) создать файл с именем «/etc/logcheck/ignore.d.server/smartd_own» со следующим содержимым:
^\w{3} [ :0-9]{11} [._[:alnum:]-]+ smartd\[[0-9]+\]: Device: /dev/sda \[SAT\], 1 Offline uncorrectable sectors$
Это должно отфильтровать раздражающие письма, но я напишу вам снова, если счетчик неисправимых секторов увеличится.