3ware: La unidad se reinicia al intentar reconstruir

3ware: La unidad se reinicia al intentar reconstruir

Tengo un RAID bus controller: 3ware Inc 9550SX SATA-II RAID PCI-Xcon cuatro discos, con el siguiente estado actual:

tw_cli> /c1 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    REBUILD-PAUSED 0%      -       256K    931.303   OFF    OFF
u1    SPARE     OK             -       -       -       465.753   -      OFF

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     OK               u0     465.76 GB   976773168     WD-WCAS87320631
p1     OK               u0     465.76 GB   976773168     WD-WCAS87223554
p2     DEGRADED         u0     465.76 GB   976773168     WD-WCAS87159042
p3     OK               u1     465.76 GB   976773168     WD-WMAYP6812676
p4     NOT-PRESENT      -      -           -             -
p5     NOT-PRESENT      -      -           -             -
p6     NOT-PRESENT      -      -           -             -
p7     NOT-PRESENT      -      -           -             -

La reconstrucción está habilitada. A veces comienza (Estado: REBUILDING), aparentemente hace cosas durante aproximadamente un minuto y luego vuelve a REBUILD-PAUSED. Nunca %RCmplsupera el 0%. Log ( /var/log/messages) dice aproximadamente cada cinco minutos:

Dec  5 23:41:57 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x000B): Rebuild started:unit=0.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x003A): Drive power on reset detected:port=1.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x001A): Drive inserted:port=1.

Soy nuevo en este hardware y heredé la máquina y la tarea de mantenimiento. ¿Qué podría indicar? ¿Qué tan grande es el problema que tengo? ¿Qué tengo que hacer?


Nuevos eventos

Dec  6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current<4>3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec  6 00:25:42 somelinux kernel: : sense key=0x2
Dec  6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec  6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec  6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec  6 00:25:43 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x001E): Unit inoperable:unit=0.
Dec  6 00:28:02 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec  6 00:28:02 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:28:02 somelinux kernel: end_request: I/O error, dev sdc, sector 104927621
Dec  6 00:28:02 somelinux kernel: xfs_force_shutdown(dm-0,0x2) called from line 956 of file fs/xfs/xfs_log.c.  Return address = 0xc028860d

... y ...

tw_cli> /c1 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    INOPERABLE     -       -       256K    931.303   OFF    OFF
u1    SPARE     OK             -       -       -       465.753   -      OFF

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     OK               u0     465.76 GB   976773168     WD-WCAS87320631
p1     NOT-PRESENT      -      -           -             -
p2     OK               u0     465.76 GB   976773168     WD-WCAS87159042
p3     OK               u1     465.76 GB   976773168     WD-WMAYP6812676
p4     NOT-PRESENT      -      -           -             -
p5     NOT-PRESENT      -      -           -             -
p6     NOT-PRESENT      -      -           -             -
p7     NOT-PRESENT      -      -           -             -

Parece que p1 está en muy mal estado.


Seguimiento

Siempre funcionó durante algunos minutos/horas antes de volverse INOPERABLE. De esa manera logré hacer una copia de seguridad de los datos. Tuve mucha suerte. Aprendí que debo prestar más atención; de lo contrario, no tiene sentido tener almacenamiento redundante.

Se eliminó la matriz anterior. Se eliminó el disco defectuoso. Definí una nueva matriz con 3 buenos miembros. Sistemas de archivos recreados. Copias de seguridad restauradas. Final feliz.

Respuesta1

Prepárate.

Su RAID 5 está muerto:

u0    RAID-5    INOPERABLE     -       -       256K    931.303   OFF    OFF

Ésa es también la razón de los errores SCSI/I/O. Su RAID 5 no es de 4 discos; son solo 3. El cuarto disco, p3, está en su propia unidad, u1, no en la unidad primaria, u0.

A juzgar por el texto que proporcionó, esto es lo que probablemente sucedió:

  1. p2 está degradado y trataste de reconstruir
  2. Durante esto, p1 dejó de ser detectado.
  3. Fallo de RAID 5 ya que 2 unidades no funcionaban/detectadas

El hecho de que p2 ahora muestre "OK" es irrelevante en relación con el estado del RAID 5.

Espero que este servidor tenga copias de seguridad, porque es poco probable que puedas recuperarlas. Tampoco creo que tw_cli admita forzar una matriz en línea. Si bien lo siguiente no le ayudará a recuperar datos de esta matriz fallida, esto es lo que recomiendo:

  1. Reemplace la unidad fallida/faltante (p1)
  2. Como la tarjeta no admite RAID 6, no podemos usarlo (recomendado para unidades grandes), por lo que tendremos que usar RAID 10. Vuelva a crear con RAID 10, cree las particiones, formatee/monte y actualice/etc. /fstab.
  3. Restaurar desde las copias de seguridad espero que tengas

Quien haya configurado esto como RAID 5 con un repuesto (tampoco está configurado correctamente) no fue el más brillante.

información relacionada