![¿Cómo restaurar mi RAID5 después de fallar por error una de las unidades?](https://rvso.com/image/1665782/%C2%BFC%C3%B3mo%20restaurar%20mi%20RAID5%20despu%C3%A9s%20de%20fallar%20por%20error%20una%20de%20las%20unidades%3F.png)
Tengo un RAID5 en Xubuntu 20.04, creado con mdadm. Fallé en una de las tres unidades por error. La matriz sigue funcionando, pero recibo errores o respuestas que no entiendo al intentar restaurar el funcionamiento completo.
SO: Me pregunto si logré solucionarlo, y si no, qué puedo hacer ahora...
Sospecho que la unidad todavía falla debido a la "(F)" en el contenido de /proc/mdstat:
root@camelot-b:~# cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid1] [raid10]
md3 : active raid5 sdf1[0](F) sdg1[3] sde1[4]
7813771264 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [_UU]
bitmap: 0/30 pages [0KB], 65536KB chunk
unused devices: <none>
root@camelot-b:~#
Sin embargo, el resultado de --examine no indica un problema y, de hecho, la última línea muestra que el estado de la matriz tiene las tres unidades activas:
root@camelot-b:~# mdadm --examine /dev/sdf1
/dev/sdf1:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x1
Array UUID : 07c3d55f:2c9b1534:6b0d5b78:dd9856ed
Name : camelot-x:3
Creation Time : Sun Apr 2 19:07:19 2017
Raid Level : raid5
Raid Devices : 3
Avail Dev Size : 7813771264 (3725.90 GiB 4000.65 GB)
Array Size : 7813771264 (7451.79 GiB 8001.30 GB)
Data Offset : 262144 sectors
Super Offset : 8 sectors
Unused Space : before=262056 sectors, after=0 sectors
State : clean
Device UUID : 24275237:b493169e:9e88df0d:ebaae551
Internal Bitmap : 8 sectors from superblock
Update Time : Fri Feb 18 17:15:50 2022
Bad Block Log : 512 entries available at offset 72 sectors
Checksum : c9840d0f - correct
Events : 26597
Layout : left-symmetric
Chunk Size : 512K
Device Role : Active device 0
Array State : AAA ('A' == active, '.' == missing, 'R' == replacing)
Respuesta1
Si ha habido pocos o ningún cambio en los datos de la matriz desde que falló el disco, es posible que pueda usar --re-add. Puede verificar la cantidad de eventos en cada unidad:
mdadm --examine /dev/sd[e-g]1 | egrep 'Event|/dev/sd'
Si el número de eventos no se queda atrás (y tiene el mapa de bits habilitado), puede volver a agregar:
mdadm /dev/md3 --re-add /dev/sdf1
Si eso no funciona, deberá agregar el disco nuevamente (esto podría desencadenar una reconstrucción completa)
mdadm /dev/md3 -a /dev/sdf1
Según la documentación, mdadm intentará volver a agregar primero cuando emita el comando agregar (-a, --add). Ejecutar re-add es útil si desea intentar agregar la unidad sin resincronizar y no volver a sincronizarla de inmediato si re-add no funciona.
Respuesta2
Esta no es la respuesta técnica, pero funciona... ya que de hecho me encontré en la misma posición.Este método sólo funciona si la máquina es local y tienes otra computadora local.
**Recuerde, RAID5 tiene recuperación para 1 falla de unidad. Es decir, reconstruirá la matriz a partir de las unidades restantes... siempre y cuando otra unidad no sea problemática durante el proceso de recuperación.
- Retire físicamente la unidad del sistema defectuoso
- Formatee la unidad fallida usando una máquina diferente
- Inserte la unidad recién formateada nuevamente en la máquina original
- La matriz RAID debería comenzar el proceso de recuperación y reconstruir la unidad fallida.
- Deberías volver a estar en funcionamiento cuando se complete la recuperación.
No puedo recomendarle que realice cambios de configuración con los que no esté familiarizado. Si sus datos son irrecuperables, no hay necesidad de perder el tiempo reconstruyendo su matriz y arreglando su estado de salud.