descubra por que o mdadm derrubou um disco

descubra por que o mdadm derrubou um disco

O mdadm deixou cair um disco duas vezes nos últimos dois meses. Eu o adicionei novamente da última vez e funcionou bem por um tempo, então percebi que estava rodando em modo degradado novamente. Eu me perguntei como encontrei o "motivo" pelo qual a unidade caiu.

Responder1

Você deve ler os logs do sistema: normalmente /var/log/messagese/ou a saída do journalctl -xecomando. Se a unidade falhou recentemente, o buffer de mensagens do kernel (visível com odmesg comando) também pode conter mensagens sobre ela.

Normalmente, as dmesgmensagens também serão armazenadas nos logs, mas o subsistema de log pode ter sido configurado para ignorar algumas das mensagens do kernel de prioridade mais baixa, portanto, pode haver mais detalhes presentes nodmesg saída.

O que você provavelmente verá é uma explosão de mensagens de erro/tempo limite de E/S de disco e em algum lugar entre ou depois delas uma mensagem do subsistema RAID informando que está marcando a unidade como com falha. Basicamente, se o subsistema RAID detectar que um disco começa a relatar que está falhando nas solicitações de E/S (leitura ou gravação) ou expirando o tempo limite delas, por qualquer motivo, o disco será marcado como com falha.

Para obter mais dicas, você também pode usar smartctl -ano disco descartado, para ver que tipo de resultados suas próprias verificações de integridade internas estão relatando.

informação relacionada