Eu tenho um sistema de arquivos mdadm raid 6, que possui apenas 3 discos em 4 em execução. Eu tenho discos de 4x2 TB, sempre que adiciono o quarto disco (tentei a semana toda) e faço isso, ls
recebo alguns erros no sistema de arquivos:
$ ll /mnt/downloads/downloads
...
d????????? ? ? ? ? ? drivers/
...
Mas sempre que removo o disco recém-adicionado, ele mostra o sistema de arquivos corretamente:
$ sudo mdadm /dev/md0 --fail /dev/sde1
mdadm: set /dev/sde1 faulty in /dev/md0
$ ll /mnt/downloads/downloads
(correct contents)
Eu tentei zerar o superbloco, limpando sudo wipefs -a /dev/sde1
os blocos relacionados ao ataque, e todos resultaram na mesma falha.
Verificar a matriz mdadm com apenas 3 discos não mostra erros, fazendo echo check > /sys/block/md0/md/sync_action
.
Tentei ler todos os setores do disco para ver se há um bloco defeituoso, mas nada desse tipo ocorreu.
Estou executando um sudo badblocks -wsv /dev/sde1
no disco agora, mas duvido que algum erro apareça.
Isso me deixou muito confuso. Meu disco está ruim de alguma forma e as verificações de disco simplesmente não funcionam por algum motivo?
Ou é algo relacionado ao fato de eu não ter adicionado o disco corretamente? Eu corri:
sudo mdadm /dev/md0 -a /dev/sde1
Acho que sempre executei esse comando enquanto o sistema de arquivos ainda estava montado e desmontei-o durante a adição do disco. Não acho que isso causaria um problema, não é?
Responder1
Se a unidade em si não estiver ruim, provavelmente é um bug do kernel.
Por exemplo, houve recentemente um bug de corrupção de dados relacionado à ressincronização do RAID6 e, dependendo da versão do kernel que você está executando, você pode ser afetado:
ERRO: recuperação RAID6 interrompida pelo commit 4f4fd7c5798bbdd5a03a60f6269cf1177fbd11ef
Caso contrário, verifique também inconsistências de RAID ( mdadm --action=check /dev/mdX
, watch head /sys/block/md*/md/mismatch_cnt
) que possam existir na paridade restante do RAID6.
Verifique também todos os outros ângulos, memtest, smartctl, etc., bem como dmesg, para mensagens de erro que possam ter aparecido durante a ressincronização.
Responder2
Identifiquei o problema ao jogar com btrfs eatualizando VMware, acontece:
O disco rígido 0 e o disco rígido 4, os discos rígidos físicos que adicionei ao meu convidado Arch Linux VMware, eram o mesmo.
Não admira que estivesse quebrando.
A resposta do Frostschutz ainda pode ter importância, já que minha versão do kernel estava nas versões afetadas.