RAID1 mdadm, falha automaticamente em uma unidade e evita um sistema de arquivos somente leitura?

RAID1 mdadm, falha automaticamente em uma unidade e evita um sistema de arquivos somente leitura?

Estou gerenciando um servidor com duas unidades de estado sólido configuradas no mdadm RAID1. O servidor está executando RHEL6 com um sistema de arquivos ext4.

Esta noite, o servidor ficou offline logo após o início dos backups noturnos e o console relatou erros de disco:insira a descrição da imagem aqui

Ao fazer login no console, descobri que um dos discos foi marcado como falhado pelo mdadm e o sistema de arquivos foi definido como somente leitura.

Existe uma maneira de configurar o mdadm para falhar na unidade antes que o sistema de arquivos seja remontado como somente leitura?Eu preferiria rodar como um sistema de disco único por um curto período de tempo (até que um disco substituto possa ser instalado) em vez de colocar imediatamente o sistema de arquivos no modo somente leitura - o que garantiria uma interrupção.

Responder1

Ele faz isso por padrão, mas é verdade que tive problemas semelhantes com isso. O MD não está realmente interessado em falhas de discos (ou na verdade em reparar setores reescrevendo-os, o que os controladores RAID de hardware fazem). É por isso que configurei meu monitoramento de log para procurar por 'uma exceção' e me enviar um e-mail quando isso acontecer. Pelo menos com HDDs tradicionais, isso permite ver falhas de disco com muito mais rapidez.

Se o sistema de arquivos estiver marcado como somente leitura, o erro subiu na cadeia e o dispositivo MD também apresentou erros. Tem certeza de que não houve erros no sdb?

Ou você tem certeza de que as unidades falharam? Pode acontecer, recentemente comigo, que todo o barramento PCI tenha falhado. Todos os dispositivos conectados a ele começaram a emitir erros (todos ATA e Ethernet) e, de fato, os sistemas de arquivos foram marcados como somente leitura e os arrays MD como falhados. Mas obviamente os discos ou MD não eram o problema.

Para verificar se as unidades estavam com erro: não tenho muita experiência com SMART em unidades SSD, mas pelo menos com unidades HDD, o log SMART pode mostrar algo; há um log de erros nele e você pode observar os parâmetros inteligentes, talvez compará-los com o outro disco.

Se o smartmontools estiver instalado, você pode fazer:

smartctl -a /dev/sda

Você também pode estar interessado emComo faço para solucionar problemas do meu array RAID.

Editar: Quanto ao barramento PCI. Parece que o seu problema foi localizado em um disco ou controlador.

informação relacionada