¿Cómo restaurar mi RAID5 después de fallar por error una de las unidades?

¿Cómo restaurar mi RAID5 después de fallar por error una de las unidades?

Tengo un RAID5 en Xubuntu 20.04, creado con mdadm. Fallé en una de las tres unidades por error. La matriz sigue funcionando, pero recibo errores o respuestas que no entiendo al intentar restaurar el funcionamiento completo.

SO: Me pregunto si logré solucionarlo, y si no, qué puedo hacer ahora...

Sospecho que la unidad todavía falla debido a la "(F)" en el contenido de /proc/mdstat:

root@camelot-b:~# cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid1] [raid10] 
md3 : active raid5 sdf1[0](F) sdg1[3] sde1[4]
      7813771264 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [_UU]
      bitmap: 0/30 pages [0KB], 65536KB chunk

unused devices: <none>
root@camelot-b:~# 

Sin embargo, el resultado de --examine no indica un problema y, de hecho, la última línea muestra que el estado de la matriz tiene las tres unidades activas:

root@camelot-b:~# mdadm --examine /dev/sdf1
/dev/sdf1:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x1
     Array UUID : 07c3d55f:2c9b1534:6b0d5b78:dd9856ed
           Name : camelot-x:3
  Creation Time : Sun Apr  2 19:07:19 2017
     Raid Level : raid5
   Raid Devices : 3

 Avail Dev Size : 7813771264 (3725.90 GiB 4000.65 GB)
     Array Size : 7813771264 (7451.79 GiB 8001.30 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
   Unused Space : before=262056 sectors, after=0 sectors
          State : clean
    Device UUID : 24275237:b493169e:9e88df0d:ebaae551

Internal Bitmap : 8 sectors from superblock
    Update Time : Fri Feb 18 17:15:50 2022
  Bad Block Log : 512 entries available at offset 72 sectors
       Checksum : c9840d0f - correct
         Events : 26597

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 0
   Array State : AAA ('A' == active, '.' == missing, 'R' == replacing)

Respuesta1

Si ha habido pocos o ningún cambio en los datos de la matriz desde que falló el disco, es posible que pueda usar --re-add. Puede verificar la cantidad de eventos en cada unidad:

mdadm --examine /dev/sd[e-g]1 | egrep 'Event|/dev/sd'

Si el número de eventos no se queda atrás (y tiene el mapa de bits habilitado), puede volver a agregar:

mdadm /dev/md3 --re-add /dev/sdf1

Si eso no funciona, deberá agregar el disco nuevamente (esto podría desencadenar una reconstrucción completa)

mdadm /dev/md3 -a /dev/sdf1

Según la documentación, mdadm intentará volver a agregar primero cuando emita el comando agregar (-a, --add). Ejecutar re-add es útil si desea intentar agregar la unidad sin resincronizar y no volver a sincronizarla de inmediato si re-add no funciona.

Respuesta2

Esta no es la respuesta técnica, pero funciona... ya que de hecho me encontré en la misma posición.Este método sólo funciona si la máquina es local y tienes otra computadora local.

**Recuerde, RAID5 tiene recuperación para 1 falla de unidad. Es decir, reconstruirá la matriz a partir de las unidades restantes... siempre y cuando otra unidad no sea problemática durante el proceso de recuperación.

  • Retire físicamente la unidad del sistema defectuoso
  • Formatee la unidad fallida usando una máquina diferente
  • Inserte la unidad recién formateada nuevamente en la máquina original
  • La matriz RAID debería comenzar el proceso de recuperación y reconstruir la unidad fallida.
  • Deberías volver a estar en funcionamiento cuando se complete la recuperación.

No puedo recomendarle que realice cambios de configuración con los que no esté familiarizado. Si sus datos son irrecuperables, no hay necesidad de perder el tiempo reconstruyendo su matriz y arreglando su estado de salud.

información relacionada