¿RAID 5 con 4 discos no funciona con un disco fallido?

Question 1

Este es un problema fundamental con RAID5: los bloques defectuosos durante la reconstrucción son mortales.

Oct  2 15:08:51 it kernel: [1686185.573233] md/raid:md0: device xvdc operational as raid disk 0
Oct  2 15:08:51 it kernel: [1686185.580020] md/raid:md0: device xvde operational as raid disk 2
Oct  2 15:08:51 it kernel: [1686185.588307] md/raid:md0: device xvdd operational as raid disk 1
Oct  2 15:08:51 it kernel: [1686185.595745] md/raid:md0: allocated 4312kB
Oct  2 15:08:51 it kernel: [1686185.600729] md/raid:md0: raid level 5 active with 3 out of 4 devices, algorithm 2
Oct  2 15:08:51 it kernel: [1686185.608928] md0: detected capacity change from 0 to 2705221484544
⋮

El conjunto ha sido ensamblado, degradado. Ha sido ensamblado con xvdc, xvde y xvdd. Aparentemente, hay un repuesto activo:

Oct  2 15:08:51 it kernel: [1686185.615772] md: recovery of RAID array md0
Oct  2 15:08:51 it kernel: [1686185.621150] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
Oct  2 15:08:51 it kernel: [1686185.627626] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
Oct  2 15:08:51 it kernel: [1686185.634024]  md0: unknown partition table
Oct  2 15:08:51 it kernel: [1686185.645882] md: using 128k window, over a total of 880605952k.

El mensaje 'tabla de particiones' no está relacionado. Los otros mensajes le indican que md está intentando realizar una recuperación, probablemente en un repuesto dinámico (que podría ser el dispositivo que falló antes, si intentó eliminarlo o volver a agregarlo).

⋮
Oct  2 15:24:19 it kernel: [1687112.817845] end_request: I/O error, dev xvde, sector 881423360
Oct  2 15:24:19 it kernel: [1687112.820517] raid5_end_read_request: 1 callbacks suppressed
Oct  2 15:24:19 it kernel: [1687112.821837] md/raid:md0: read error not correctable (sector 881423360 on xvde).
Oct  2 15:24:19 it kernel: [1687112.821837] md/raid:md0: Disk failure on xvde, disabling device.
Oct  2 15:24:19 it kernel: [1687112.821837] md/raid:md0: Operation continuing on 2 devices.

Y esto aquí es md intentando leer un sector de xvde (uno de los tres dispositivos restantes). Eso falla [sector defectuoso, probablemente] y md (dado que la matriz está degradada) no se puede recuperar. Por lo tanto, expulsa el disco de la matriz y, si falla el doble disco, su RAID5 está inactivo.

No estoy seguro de por qué está etiquetado como repuesto; eso es extraño (aunque supongo que normalmente miro /proc/mdstat, así que tal vez así es como lo etiqueta mdadm). Además, pensé que los kernels más nuevos eran mucho más reacios a eliminar bloques defectuosos, pero ¿tal vez estás ejecutando algo más antiguo?

¿Qué puedes hacer al respecto?

Buenas copias de seguridad. Esa es siempre una parte importante de cualquier estrategia para mantener vivos los datos.

Asegúrese de que la matriz se elimine periódicamente en busca de bloques defectuosos. Es posible que su sistema operativo ya incluya una tarea cron para esto. Para ello, haga eco de repairo checka /sys/block/md0/md/sync_action. "Reparar" también reparará cualquier error de paridad descubierto (por ejemplo, el bit de paridad no coincide con los datos de los discos).

# echo repair > /sys/block/md0/md/sync_action
#

El progreso se puede observar con cat /proc/mdstat, o con los distintos archivos en ese directorio sysfs. (Puede encontrar documentación algo actualizada en elArtículo mdstat de Linux Raid Wiki.

NOTA: En kernels más antiguos (no estoy seguro de la versión exacta), es posible que la verificación no solucione los bloques defectuosos.

Una última opción es cambiar a RAID6. Esto requerirá otro disco (ustedpoderejecutar un RAID6 de cuatro o incluso tres discos, probablemente no quiera hacerlo). Con núcleos suficientemente nuevos, los bloques defectuosos se solucionan sobre la marcha cuando es posible. RAID6 puede sobrevivir a dos fallas de disco, por lo que cuando un disco falla, aún puede sobrevivir a un bloque defectuoso y, por lo tanto, mapeará el bloque defectuoso y continuará con la reconstrucción.

Answer

Este es un problema fundamental con RAID5: los bloques defectuosos durante la reconstrucción son mortales.

Oct  2 15:08:51 it kernel: [1686185.573233] md/raid:md0: device xvdc operational as raid disk 0
Oct  2 15:08:51 it kernel: [1686185.580020] md/raid:md0: device xvde operational as raid disk 2
Oct  2 15:08:51 it kernel: [1686185.588307] md/raid:md0: device xvdd operational as raid disk 1
Oct  2 15:08:51 it kernel: [1686185.595745] md/raid:md0: allocated 4312kB
Oct  2 15:08:51 it kernel: [1686185.600729] md/raid:md0: raid level 5 active with 3 out of 4 devices, algorithm 2
Oct  2 15:08:51 it kernel: [1686185.608928] md0: detected capacity change from 0 to 2705221484544
⋮

El conjunto ha sido ensamblado, degradado. Ha sido ensamblado con xvdc, xvde y xvdd. Aparentemente, hay un repuesto activo:

Oct  2 15:08:51 it kernel: [1686185.615772] md: recovery of RAID array md0
Oct  2 15:08:51 it kernel: [1686185.621150] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
Oct  2 15:08:51 it kernel: [1686185.627626] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
Oct  2 15:08:51 it kernel: [1686185.634024]  md0: unknown partition table
Oct  2 15:08:51 it kernel: [1686185.645882] md: using 128k window, over a total of 880605952k.

El mensaje 'tabla de particiones' no está relacionado. Los otros mensajes le indican que md está intentando realizar una recuperación, probablemente en un repuesto dinámico (que podría ser el dispositivo que falló antes, si intentó eliminarlo o volver a agregarlo).

⋮
Oct  2 15:24:19 it kernel: [1687112.817845] end_request: I/O error, dev xvde, sector 881423360
Oct  2 15:24:19 it kernel: [1687112.820517] raid5_end_read_request: 1 callbacks suppressed
Oct  2 15:24:19 it kernel: [1687112.821837] md/raid:md0: read error not correctable (sector 881423360 on xvde).
Oct  2 15:24:19 it kernel: [1687112.821837] md/raid:md0: Disk failure on xvde, disabling device.
Oct  2 15:24:19 it kernel: [1687112.821837] md/raid:md0: Operation continuing on 2 devices.

Y esto aquí es md intentando leer un sector de xvde (uno de los tres dispositivos restantes). Eso falla [sector defectuoso, probablemente] y md (dado que la matriz está degradada) no se puede recuperar. Por lo tanto, expulsa el disco de la matriz y, si falla el doble disco, su RAID5 está inactivo.

No estoy seguro de por qué está etiquetado como repuesto; eso es extraño (aunque supongo que normalmente miro /proc/mdstat, así que tal vez así es como lo etiqueta mdadm). Además, pensé que los kernels más nuevos eran mucho más reacios a eliminar bloques defectuosos, pero ¿tal vez estás ejecutando algo más antiguo?

¿Qué puedes hacer al respecto?

Buenas copias de seguridad. Esa es siempre una parte importante de cualquier estrategia para mantener vivos los datos.

Asegúrese de que la matriz se elimine periódicamente en busca de bloques defectuosos. Es posible que su sistema operativo ya incluya una tarea cron para esto. Para ello, haga eco de repairo checka /sys/block/md0/md/sync_action. "Reparar" también reparará cualquier error de paridad descubierto (por ejemplo, el bit de paridad no coincide con los datos de los discos).

# echo repair > /sys/block/md0/md/sync_action
#

El progreso se puede observar con cat /proc/mdstat, o con los distintos archivos en ese directorio sysfs. (Puede encontrar documentación algo actualizada en elArtículo mdstat de Linux Raid Wiki.

NOTA: En kernels más antiguos (no estoy seguro de la versión exacta), es posible que la verificación no solucione los bloques defectuosos.

Una última opción es cambiar a RAID6. Esto requerirá otro disco (ustedpoderejecutar un RAID6 de cuatro o incluso tres discos, probablemente no quiera hacerlo). Con núcleos suficientemente nuevos, los bloques defectuosos se solucionan sobre la marcha cuando es posible. RAID6 puede sobrevivir a dos fallas de disco, por lo que cuando un disco falla, aún puede sobrevivir a un bloque defectuoso y, por lo tanto, mapeará el bloque defectuoso y continuará con la reconstrucción.

Question 2

Me imagino que estás creando tu matriz RAID5 de esta manera:

$ mdadm --create /dev/md0 --level=5 --raid-devices=4 \
       /dev/sda1 /dev/sdb1 /dev/sdc1 /dev/sdd1

Que no es exactamente lo que quieres. Más bien necesitas agregar los discos de esta manera:

$ mdadm --create /dev/md0 --level=5 --raid-devices=4 \
       /dev/sda1 /dev/sdb1 /dev/sdc1
$ mdadm --add /dev/md0 /dev/sdd1

O puede usar mdadmla opción para agregar repuestos como este:

$ mdadm --create /dev/md0 --level=5 --raid-devices=3 --spare-devices=1 \
       /dev/sda1 /dev/sdb1 /dev/sdc1 /dev/sdd1

La última unidad de la lista será la de repuesto.

extracto de lapágina de manual de mdadm

-n, --raid-devices=
      Specify the number of active devices in the array.  This, plus the 
      number of spare devices (see below) must  equal the  number  of  
      component-devices (including "missing" devices) that are listed on 
      the command line for --create. Setting a value of 1 is probably a 
      mistake and so requires that --force be specified first.  A  value 
      of  1  will then be allowed for linear, multipath, RAID0 and RAID1.  
      It is never allowed for RAID4, RAID5 or RAID6. This  number  can only 
      be changed using --grow for RAID1, RAID4, RAID5 and RAID6 arrays, and
      only on kernels which provide the necessary support.

-x, --spare-devices=
      Specify the number of spare (eXtra) devices in the initial array.  
      Spares can also be  added  and  removed  later. The  number  of component
      devices listed on the command line must equal the number of RAID devices 
      plus the number of spare devices.

Answer

Me imagino que estás creando tu matriz RAID5 de esta manera:

$ mdadm --create /dev/md0 --level=5 --raid-devices=4 \
       /dev/sda1 /dev/sdb1 /dev/sdc1 /dev/sdd1

Que no es exactamente lo que quieres. Más bien necesitas agregar los discos de esta manera:

$ mdadm --create /dev/md0 --level=5 --raid-devices=4 \
       /dev/sda1 /dev/sdb1 /dev/sdc1
$ mdadm --add /dev/md0 /dev/sdd1

O puede usar mdadmla opción para agregar repuestos como este:

$ mdadm --create /dev/md0 --level=5 --raid-devices=3 --spare-devices=1 \
       /dev/sda1 /dev/sdb1 /dev/sdc1 /dev/sdd1

La última unidad de la lista será la de repuesto.

extracto de lapágina de manual de mdadm

-n, --raid-devices=
      Specify the number of active devices in the array.  This, plus the 
      number of spare devices (see below) must  equal the  number  of  
      component-devices (including "missing" devices) that are listed on 
      the command line for --create. Setting a value of 1 is probably a 
      mistake and so requires that --force be specified first.  A  value 
      of  1  will then be allowed for linear, multipath, RAID0 and RAID1.  
      It is never allowed for RAID4, RAID5 or RAID6. This  number  can only 
      be changed using --grow for RAID1, RAID4, RAID5 and RAID6 arrays, and
      only on kernels which provide the necessary support.

-x, --spare-devices=
      Specify the number of spare (eXtra) devices in the initial array.  
      Spares can also be  added  and  removed  later. The  number  of component
      devices listed on the command line must equal the number of RAID devices 
      plus the number of spare devices.

¿RAID 5 con 4 discos no funciona con un disco fallido?

Respuesta1

¿Qué puedes hacer al respecto?

Respuesta2

información relacionada