Tengo un disco en un software RAID-1 de dos discos para el cual recientemente apareció un "sector fuera de línea incorregible" en el estado SMART.
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 1
Aparentemente, esto es sólo una señal de falla inminente del disco si ocurre cada vez con mayor frecuencia (y dado que la unidad está reflejada, tampoco existe un gran riesgo de pérdida real de datos). En ese momento, una autoprueba también falló en algún momento y smartd
me envió un correo electrónico para notificarme esto como, por supuesto, debería ser.
Sin embargo, escribir en el sector dañado generalmente hace que el disco use uno de sus sectores de repuesto, lo que aparentemente hizo porque desde que revisé dd
el disco, todas las autopruebas se realizaron sin problemas. Y badblocks
tampoco encontró motivos para quejarse.
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
[...]
# 5 Extended offline Completed without error 00% 5559 -
# 6 Short offline Completed without error 00% 5540 -
# 7 Short offline Completed: read failure 90% 5524 63273368
El número de sectores defectuosos no disminuyó, aunque en realidad no debería hacerlo, ya que el sector roto todavía está allí, aunque no se utiliza. Sin embargo, smartd
continúa enviándome correos electrónicos todas las noches:
The following warning/error was logged by the smartd daemon:
Device: /dev/sda [SAT], 1 Offline uncorrectable sectors
Obviamente, esto es extremadamente molesto y adormece mi saludable reflejo de pánico ante smartd
los correos electrónicos.
El disco es un Western Digital WD20EARS y la smartd
versión es 5.41 2011-06-09 r3365.
Respuesta1
En algunos discos, es posible que tengas que recurrir a -U 198+
(o -U +
?) en el archivo de configuración.
Por favor tenga cuidado. Si no es usted el autor de la pregunta original, lea atentamente toda la pregunta. Si usa esto en un disco que no lo necesita, suprimirá las advertencias completamente válidas.
Si se especifica ´+´, solo se imprime un informe si el número de sectores ha aumentado desde el último ciclo de verificación. Algunos discos no restablecen este atributo cuando se reasigna un sector defectuoso. Véase también ´-v 198,aumentando´ más abajo.
Por ejemplo, supongamos que está utilizando la configuración predeterminada en smartd.conf
. En ese caso, hay muchos comentarios en el archivo, pero la única línea que no es comentario está aquí:
# The word DEVICESCAN will cause any remaining lines in this
# configuration file to be ignored: it tells smartd to scan for all
# ATA and SCSI devices. DEVICESCAN may be followed by any of the
# Directives listed below, which will be applied to all devices that
# are found. Most users should comment out DEVICESCAN and explicitly
# list the devices that they wish to monitor.
DEVICESCAN
Agregue la opción al final de la línea:
DEVICESCAN -U 198+
Respuesta2
Hay dos posibilidades de dónde provienen estos correos. smartd puede enviar correos electrónicos por sí solo, pero lo más probable es que no esté configurado de esta manera, por lo que supongo que estos correos electrónicos se envían mediante logcheck. Si esta suposición es incorrecta, no es necesario que siga leyendo.
logcheck escanea los archivos de registro y envía correos electrónicos si cree que debería preocuparse por cualquier cosa que haya sucedido en su sistema.
Tiene la opción de escribir una regla de ignorar de logcheck que le indique a logcheck que no envíe mensajes que coincidan con un patrón específico.
Podría (en sistemas basados en Debian) crear un archivo llamado "/etc/logcheck/ignore.d.server/smartd_own" con el siguiente contenido:
^\w{3} [ :0-9]{11} [._[:alnum:]-]+ smartd\[[0-9]+\]: Device: /dev/sda \[SAT\], 1 Offline uncorrectable sectors$
Esto debería filtrar los correos molestos pero escribirle nuevamente si aumenta el contador de sectores incorregibles.