Recentemente, tive dois discos rígidos que travaram em um array RAID 5, não configurei nenhum monitoramento, então não percebi que um deles havia travado por um tempo. Então decidi descartar tudo e começar do zero.
Todo o hardware é o mesmo de antes, exceto que tenho menos unidades do que antes em meu array, 3 maiores em vez de 8. Também instalei o Arch Linux como UEFI em vez de usar a opção de inicialização herdada, não tenho certeza se isso afeta alguma coisa .
Eu reinstalei o Arch Linux, com monitoramento/notificações mdadm adequadas e testes SMART curtos diários (e testes semanais longos).
No entanto, desde a reinstalação do Arch Linux, tenho visto pânico aleatório no kernel, geralmente após mais de 48 horas de atividade.
Consegui tirar uma foto do kernel panic:
Agora, pelo que posso ver lá, parece estar relacionado ao mdadm.
Aqui está minha configuração do mdadm:
Personalities : [raid1] [raid6] [raid5] [raid4]
md0 : active raid1 sda1[0] sdb1[1]
524224 blocks super 1.0 [2/2] [UU]
md1 : active raid1 sda3[0] sdb3[1]
1950761024 blocks super 1.2 [2/2] [UU]
bitmap: 5/15 pages [20KB], 65536KB chunk
md2 : active raid5 sde1[3] sdc1[0] sdd1[1]
5796265984 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3] [UUU]
bitmap: 0/22 pages [0KB], 65536KB chunk
unused devices: <none>
Linha relevante em mkinitcpio.conf:
HOOKS="base udev autodetect modconf block mdadm_udev filesystems keyboard fsck"
Atualmente estou no Linux akatosh 4.1.6-1-ARCH #1 SMP PREEMPT Seg, 17 de agosto 08:52:28 CEST 2015 x86_64 GNU/Linux.
Tentei recolocar minha RAM, mas duvido que seja um problema de RAM, pois isso não estava acontecendo antes de reinstalar o Arch Linux.
A maioria dos problemas de kernel panic relacionados ao mdadm que descobri em minha pesquisa ocorriam na inicialização. Alguém tem alguma idéia de qual poderia ser o problema?
EDITAR: Parece que este é um bug conhecido introduzido em 4.1.4 ou 4.1.5:https://bugzilla.redhat.com/show_bug.cgi?id=1255509
Tentarei atualizar para 4.2.0 em testes e atualizarei este post com mais informações.
Responder1
Este é um bug conhecido que foi introduzido com:
edbe83ab4c27 md/raid5: allow the stripe_cache to grow and shrink.
Mais informações podem serencontrado neste relatório de bug oficial, “Bug 1255509 - BUG: não é possível lidar com a solicitação de paginação do kernel em ffffffffffffffd8.”
A solução é atualizar para 4.2.0.