Pánico aleatorio en el kernel después de reinstalar Arch Linux

Pánico aleatorio en el kernel después de reinstalar Arch Linux

Recientemente tuve dos discos duros que fallaron en una matriz RAID 5, no configuré ningún monitoreo, por lo que no noté que uno había fallado por un tiempo. Entonces decidí desechar todo y empezar de cero.

Todo el hardware es el mismo que antes, excepto que tengo menos unidades que antes en mi matriz, 3 más grandes en lugar de 8. También instalé Arch Linux como UEFI en lugar de usar la opción de arranque heredada, no estoy seguro si eso afecta algo. .

Reinstalé Arch Linux, con monitoreo/notificaciones mdadm adecuadas y pruebas SMART cortas diarias (y pruebas largas semanales).

Sin embargo, desde que reinstalé Arch Linux, he visto pánicos aleatorios en el kernel, generalmente después de más de 48 horas de funcionamiento.

Me las arreglé para tomar una foto del pánico del kernel:

imagen de pánico del núcleo

Ahora, por lo que puedo ver allí, parece estar relacionado con mdadm.

Aquí está mi configuración de mdadm:

Personalities : [raid1] [raid6] [raid5] [raid4]
md0 : active raid1 sda1[0] sdb1[1]
      524224 blocks super 1.0 [2/2] [UU]

md1 : active raid1 sda3[0] sdb3[1]
      1950761024 blocks super 1.2 [2/2] [UU]
      bitmap: 5/15 pages [20KB], 65536KB chunk

md2 : active raid5 sde1[3] sdc1[0] sdd1[1]
      5796265984 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3] [UUU]
      bitmap: 0/22 pages [0KB], 65536KB chunk

unused devices: <none>

Línea relevante en mkinitcpio.conf:

HOOKS="base udev autodetect modconf block mdadm_udev filesystems keyboard fsck"

Actualmente estoy en Linux akatosh 4.1.6-1-ARCH #1 SMP PREEMPT Lunes 17 de agosto 08:52:28 CEST 2015 x86_64 GNU/Linux.

Intenté volver a colocar mi RAM, pero dudo que sea un problema de RAM, ya que no estaba sucediendo antes de reinstalar Arch Linux.

La mayoría de los problemas de pánico del kernel relacionados con mdadm que encontré en mi investigación ocurrían en el arranque. ¿Alguien tiene alguna idea de cuál podría ser el problema?

EDITAR: Parece que este es un error conocido introducido en 4.1.4 o 4.1.5:https://bugzilla.redhat.com/show_bug.cgi?id=1255509

Intentaré actualizar a 4.2.0 durante las pruebas y actualizaré esta publicación con más información.

Respuesta1

Este es un error conocido que se introdujo con:

edbe83ab4c27 md/raid5: allow the stripe_cache to grow and shrink.

Más información puede serque se encuentra en este informe de error oficial, "Error 1255509 - ERROR: no se puede manejar la solicitud de paginación del kernel en ffffffffffffffd8".

La solución es actualizar a 4.2.0.

información relacionada