Eu tenho um disco em um software RAID-1 de dois discos para o qual recentemente um "setor off-line incorrigível" apareceu no status SMART.
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 1
Aparentemente, isso é apenas um sinal de falha iminente do disco se ocorrer com cada vez mais frequência (e como a unidade é espelhada, também não há grande risco de perda real de dados). Na época, um autoteste também falhou em algum momento e smartd
me enviou um e-mail para me avisar sobre isso, como é claro que deveria acontecer.
No entanto, gravar no setor danificado geralmente faz com que o disco use um de seus setores sobressalentes, o que aparentemente aconteceu porque, desde que eu dd
li o disco, todos os autotestes funcionaram perfeitamente. E badblocks
também não encontrei motivos para reclamar.
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
[...]
# 5 Extended offline Completed without error 00% 5559 -
# 6 Short offline Completed without error 00% 5540 -
# 7 Short offline Completed: read failure 90% 5524 63273368
O número de setores defeituosos não diminuiu, o que não deveria, na verdade, já que o setor quebrado ainda está lá, embora não utilizado. No entanto, smartd
continua a me enviar e-mails todas as noites:
The following warning/error was logged by the smartd daemon:
Device: /dev/sda [SAT], 1 Offline uncorrectable sectors
Obviamente, isso é extremamente irritante e entorpece meu reflexo de pânico saudável em relação aos smartd
e-mails.
O disco é um Western Digital WD20EARS e a smartd
versão é 5.41 2011-06-09 r3365.
Responder1
Em alguns discos, pode ser necessário recorrer a -U 198+
(ou -U +
?) No arquivo de configuração.
Por favor, seja cuidadoso. Se você não for o autor da pergunta original, leia toda a pergunta com atenção. Se você usar isso em um disco que não precisa dele, suprimirá avisos totalmente válidos.
Se for especificado ´+´, um relatório só será impresso se o número de setores tiver aumentado desde o último ciclo de verificação. Alguns discos não redefinem esse atributo quando um setor defeituoso é realocado. Veja também ´-v 198, aumentando´ abaixo.
Por exemplo, suponha que você esteja usando a configuração padrão no smartd.conf
. Nesse caso, há muitos comentários no arquivo, mas a única linha sem comentários está aqui:
# The word DEVICESCAN will cause any remaining lines in this
# configuration file to be ignored: it tells smartd to scan for all
# ATA and SCSI devices. DEVICESCAN may be followed by any of the
# Directives listed below, which will be applied to all devices that
# are found. Most users should comment out DEVICESCAN and explicitly
# list the devices that they wish to monitor.
DEVICESCAN
Adicione a opção ao final da linha:
DEVICESCAN -U 198+
Responder2
existem duas possibilidades de origem desses e-mails. O smartd é capaz de enviar e-mails sozinho, mas provavelmente não está configurado dessa maneira, então presumo que esses e-mails sejam enviados por logcheck. Se essa suposição estiver errada, você não precisa ler mais.
logcheck verifica arquivos de log e envia e-mails se achar que você deve se preocupar com algo que aconteceu em seu sistema.
Você tem a opção de escrever uma regra de ignorar logcheck que diz ao logcheck para não enviar mensagens que correspondam a um padrão específico.
Você poderia (em sistemas baseados em Debian) criar um arquivo chamado "/etc/logcheck/ignore.d.server/smartd_own" com o seguinte conteúdo:
^\w{3} [ :0-9]{11} [._[:alnum:]-]+ smartd\[[0-9]+\]: Device: /dev/sda \[SAT\], 1 Offline uncorrectable sectors$
Isso deve filtrar os e-mails irritantes, mas escrever novamente se o contador de setores incorrigíveis aumentar.