
Tengo un RAID bus controller: 3ware Inc 9550SX SATA-II RAID PCI-X
con cuatro discos, con el siguiente estado actual:
tw_cli> /c1 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 REBUILD-PAUSED 0% - 256K 931.303 OFF OFF
u1 SPARE OK - - - 465.753 - OFF
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 OK u0 465.76 GB 976773168 WD-WCAS87320631
p1 OK u0 465.76 GB 976773168 WD-WCAS87223554
p2 DEGRADED u0 465.76 GB 976773168 WD-WCAS87159042
p3 OK u1 465.76 GB 976773168 WD-WMAYP6812676
p4 NOT-PRESENT - - - -
p5 NOT-PRESENT - - - -
p6 NOT-PRESENT - - - -
p7 NOT-PRESENT - - - -
La reconstrucción está habilitada. A veces comienza (Estado: REBUILDING
), aparentemente hace cosas durante aproximadamente un minuto y luego vuelve a REBUILD-PAUSED
. Nunca %RCmpl
supera el 0%. Log ( /var/log/messages
) dice aproximadamente cada cinco minutos:
Dec 5 23:41:57 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x000B): Rebuild started:unit=0.
Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x003A): Drive power on reset detected:port=1.
Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x001A): Drive inserted:port=1.
Soy nuevo en este hardware y heredé la máquina y la tarea de mantenimiento. ¿Qué podría indicar? ¿Qué tan grande es el problema que tengo? ¿Qué tengo que hacer?
Nuevos eventos
Dec 6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current<4>3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec 6 00:25:42 somelinux kernel: : sense key=0x2
Dec 6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec 6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec 6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec 6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec 6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec 6 00:25:43 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x001E): Unit inoperable:unit=0.
Dec 6 00:28:02 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec 6 00:28:02 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec 6 00:28:02 somelinux kernel: end_request: I/O error, dev sdc, sector 104927621
Dec 6 00:28:02 somelinux kernel: xfs_force_shutdown(dm-0,0x2) called from line 956 of file fs/xfs/xfs_log.c. Return address = 0xc028860d
... y ...
tw_cli> /c1 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 INOPERABLE - - 256K 931.303 OFF OFF
u1 SPARE OK - - - 465.753 - OFF
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 OK u0 465.76 GB 976773168 WD-WCAS87320631
p1 NOT-PRESENT - - - -
p2 OK u0 465.76 GB 976773168 WD-WCAS87159042
p3 OK u1 465.76 GB 976773168 WD-WMAYP6812676
p4 NOT-PRESENT - - - -
p5 NOT-PRESENT - - - -
p6 NOT-PRESENT - - - -
p7 NOT-PRESENT - - - -
Parece que p1 está en muy mal estado.
Seguimiento
Siempre funcionó durante algunos minutos/horas antes de volverse INOPERABLE. De esa manera logré hacer una copia de seguridad de los datos. Tuve mucha suerte. Aprendí que debo prestar más atención; de lo contrario, no tiene sentido tener almacenamiento redundante.
Se eliminó la matriz anterior. Se eliminó el disco defectuoso. Definí una nueva matriz con 3 buenos miembros. Sistemas de archivos recreados. Copias de seguridad restauradas. Final feliz.
Respuesta1
Prepárate.
Su RAID 5 está muerto:
u0 RAID-5 INOPERABLE - - 256K 931.303 OFF OFF
Ésa es también la razón de los errores SCSI/I/O. Su RAID 5 no es de 4 discos; son solo 3. El cuarto disco, p3, está en su propia unidad, u1, no en la unidad primaria, u0.
A juzgar por el texto que proporcionó, esto es lo que probablemente sucedió:
- p2 está degradado y trataste de reconstruir
- Durante esto, p1 dejó de ser detectado.
- Fallo de RAID 5 ya que 2 unidades no funcionaban/detectadas
El hecho de que p2 ahora muestre "OK" es irrelevante en relación con el estado del RAID 5.
Espero que este servidor tenga copias de seguridad, porque es poco probable que puedas recuperarlas. Tampoco creo que tw_cli admita forzar una matriz en línea. Si bien lo siguiente no le ayudará a recuperar datos de esta matriz fallida, esto es lo que recomiendo:
- Reemplace la unidad fallida/faltante (p1)
- Como la tarjeta no admite RAID 6, no podemos usarlo (recomendado para unidades grandes), por lo que tendremos que usar RAID 10. Vuelva a crear con RAID 10, cree las particiones, formatee/monte y actualice/etc. /fstab.
- Restaurar desde las copias de seguridad espero que tengas
Quien haya configurado esto como RAID 5 con un repuesto (tampoco está configurado correctamente) no fue el más brillante.