Sistema de arquivos corrompido após adicionar um disco ao mdadm raid 6

Sistema de arquivos corrompido após adicionar um disco ao mdadm raid 6

Eu tenho um sistema de arquivos mdadm raid 6, que possui apenas 3 discos em 4 em execução. Eu tenho discos de 4x2 TB, sempre que adiciono o quarto disco (tentei a semana toda) e faço isso, lsrecebo alguns erros no sistema de arquivos:

$ ll /mnt/downloads/downloads
...
d????????? ? ?    ?       ?                   ? drivers/
...

Mas sempre que removo o disco recém-adicionado, ele mostra o sistema de arquivos corretamente:

$ sudo mdadm /dev/md0 --fail /dev/sde1
mdadm: set /dev/sde1 faulty in /dev/md0
$ ll /mnt/downloads/downloads
(correct contents)

Eu tentei zerar o superbloco, limpando sudo wipefs -a /dev/sde1os blocos relacionados ao ataque, e todos resultaram na mesma falha.

Verificar a matriz mdadm com apenas 3 discos não mostra erros, fazendo echo check > /sys/block/md0/md/sync_action.

Tentei ler todos os setores do disco para ver se há um bloco defeituoso, mas nada desse tipo ocorreu.

Estou executando um sudo badblocks -wsv /dev/sde1no disco agora, mas duvido que algum erro apareça.

Isso me deixou muito confuso. Meu disco está ruim de alguma forma e as verificações de disco simplesmente não funcionam por algum motivo?

Ou é algo relacionado ao fato de eu não ter adicionado o disco corretamente? Eu corri:

sudo mdadm /dev/md0 -a /dev/sde1

Acho que sempre executei esse comando enquanto o sistema de arquivos ainda estava montado e desmontei-o durante a adição do disco. Não acho que isso causaria um problema, não é?

Responder1

Se a unidade em si não estiver ruim, provavelmente é um bug do kernel.

Por exemplo, houve recentemente um bug de corrupção de dados relacionado à ressincronização do RAID6 e, dependendo da versão do kernel que você está executando, você pode ser afetado:

ERRO: recuperação RAID6 interrompida pelo commit 4f4fd7c5798bbdd5a03a60f6269cf1177fbd11ef

Caso contrário, verifique também inconsistências de RAID ( mdadm --action=check /dev/mdX, watch head /sys/block/md*/md/mismatch_cnt) que possam existir na paridade restante do RAID6.

Verifique também todos os outros ângulos, memtest, smartctl, etc., bem como dmesg, para mensagens de erro que possam ter aparecido durante a ressincronização.

Responder2

Identifiquei o problema ao jogar com btrfs eatualizando VMware, acontece:

O disco rígido 0 e o disco rígido 4, os discos rígidos físicos que adicionei ao meu convidado Arch Linux VMware, eram o mesmo.

Não admira que estivesse quebrando.

A resposta do Frostschutz ainda pode ter importância, já que minha versão do kernel estava nas versões afetadas.

informação relacionada