Sistema de archivos dañado después de agregar un disco a mdadm raid 6

Sistema de archivos dañado después de agregar un disco a mdadm raid 6

Tengo un sistema de archivos mdadm raid 6, que solo tiene 3 de 4 discos en ejecución. Tengo discos de 4x2tb, cada vez que agrego el cuarto disco (lo intenté toda la semana) y lo hago, lsme da algunos errores del sistema de archivos:

$ ll /mnt/downloads/downloads
...
d????????? ? ?    ?       ?                   ? drivers/
...

Pero cada vez que elimino el disco recién agregado, muestra el sistema de archivos correctamente:

$ sudo mdadm /dev/md0 --fail /dev/sde1
mdadm: set /dev/sde1 faulty in /dev/md0
$ ll /mnt/downloads/downloads
(correct contents)

Intenté poner a cero el superbloque, hacer una sudo wipefs -a /dev/sde1limpieza de los bloques relacionados con la incursión y todo resultó en el mismo error.

Verificar la matriz mdadm con solo 3 discos no muestra errores al hacer echo check > /sys/block/md0/md/sync_action.

Intenté leer todos los sectores del disco para ver si decía que hay un bloque defectuoso, pero no ocurrió nada de eso.

Estoy ejecutando un sudo badblocks -wsv /dev/sde1en el disco ahora, pero dudo que aparezca algún error.

Esto me ha dejado muy confundido, ¿mi disco está defectuoso de alguna manera y las comprobaciones del disco simplemente no funcionan por alguna razón?

¿O es algo relacionado con que no agregué el disco correctamente? Corrí:

sudo mdadm /dev/md0 -a /dev/sde1

Creo que siempre ejecuté este comando mientras el sistema de archivos aún estaba montado y lo desmonté mientras agregaba el disco, no creo que esto cause ningún problema, ¿verdad?

Respuesta1

Si la unidad en sí no está dañada, lo más probable es que se trate de un error del kernel.

Por ejemplo, recientemente hubo un error de corrupción de datos relacionado con la resincronización de RAID6 y, según la versión del kernel que esté ejecutando, podría verse afectado:

ERROR: Recuperación de RAID6 interrumpida por la confirmación 4f4fd7c5798bbdd5a03a60f6269cf1177fbd11ef

De lo contrario, verifique también si hay inconsistencias de RAID ( mdadm --action=check /dev/mdX, watch head /sys/block/md*/md/mismatch_cnt) que podrían existir en la paridad restante del RAID6.

También verifique todos los demás ángulos, memtest, smartctl, etc., así como dmesg, para detectar mensajes de error que puedan haber aparecido durante la resincronización.

Respuesta2

Detecté el problema mientras jugaba con btrfs yactualizando vmware, resulta:

El disco duro 0 y el disco duro 4, los discos duros físicos que agregué a mi invitado vmware Arch Linux, eran el mismo.

No es de extrañar que se estuviera rompiendo.

Es posible que la respuesta de Frostschutz aún haya importado, ya que mi versión del kernel estaba en las versiones afectadas.

información relacionada