3ware: Drive power on reset ao tentar reconstruir

3ware: Drive power on reset ao tentar reconstruir

Tenho um RAID bus controller: 3ware Inc 9550SX SATA-II RAID PCI-Xcom quatro discos, com o seguinte estado atual:

tw_cli> /c1 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    REBUILD-PAUSED 0%      -       256K    931.303   OFF    OFF
u1    SPARE     OK             -       -       -       465.753   -      OFF

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     OK               u0     465.76 GB   976773168     WD-WCAS87320631
p1     OK               u0     465.76 GB   976773168     WD-WCAS87223554
p2     DEGRADED         u0     465.76 GB   976773168     WD-WCAS87159042
p3     OK               u1     465.76 GB   976773168     WD-WMAYP6812676
p4     NOT-PRESENT      -      -           -             -
p5     NOT-PRESENT      -      -           -             -
p6     NOT-PRESENT      -      -           -             -
p7     NOT-PRESENT      -      -           -             -

A reconstrução está habilitada. Às vezes, ele começa (Status: REBUILDING), aparentemente faz coisas por um minuto ou mais e depois volta para REBUILD-PAUSED. O %RCmplnunca passa de 0%. Log ( /var/log/messages) diz a cada cinco minutos:

Dec  5 23:41:57 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x000B): Rebuild started:unit=0.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x003A): Drive power on reset detected:port=1.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x001A): Drive inserted:port=1.

Sou novo neste hardware e herdei a máquina e a tarefa de manutenção. O que isso poderia indicar? Quão grande é o problema que tenho? O que devo fazer?


Novos eventos

Dec  6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current<4>3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec  6 00:25:42 somelinux kernel: : sense key=0x2
Dec  6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec  6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec  6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec  6 00:25:43 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x001E): Unit inoperable:unit=0.
Dec  6 00:28:02 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec  6 00:28:02 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:28:02 somelinux kernel: end_request: I/O error, dev sdc, sector 104927621
Dec  6 00:28:02 somelinux kernel: xfs_force_shutdown(dm-0,0x2) called from line 956 of file fs/xfs/xfs_log.c.  Return address = 0xc028860d

... e ...

tw_cli> /c1 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    INOPERABLE     -       -       256K    931.303   OFF    OFF
u1    SPARE     OK             -       -       -       465.753   -      OFF

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     OK               u0     465.76 GB   976773168     WD-WCAS87320631
p1     NOT-PRESENT      -      -           -             -
p2     OK               u0     465.76 GB   976773168     WD-WCAS87159042
p3     OK               u1     465.76 GB   976773168     WD-WMAYP6812676
p4     NOT-PRESENT      -      -           -             -
p5     NOT-PRESENT      -      -           -             -
p6     NOT-PRESENT      -      -           -             -
p7     NOT-PRESENT      -      -           -             -

Parece que p1 está em péssimo estado.


Siga-me

Sempre funcionou por alguns minutos/horas antes de se tornar INOPERÁVEL. Dessa forma consegui fazer um backup dos dados. Eu tive muita sorte. Aprendi que preciso prestar mais atenção, caso contrário não adianta ter armazenamento redundante.

Excluiu o array antigo. Removido o disco com defeito. Definiu um novo array com 3 bons membros. Sistemas de arquivos recriados. Backups restaurados. Final feliz.

Responder1

Prepara-te.

Seu RAID 5 está morto:

u0    RAID-5    INOPERABLE     -       -       256K    931.303   OFF    OFF

Esse também é o motivo dos erros SCSI/I/O. Seu RAID 5 não tem 4 discos; são apenas 3. O quarto disco, p3, está em sua própria unidade, u1, e não na unidade primária, u0.

A julgar pelo texto que você forneceu, eis o que provavelmente aconteceu:

  1. p2 está degradado e você tentou reconstruir
  2. Durante isso, p1 parou de ser detectado
  3. Falha no RAID 5 porque 2 unidades não estavam funcionando/detectadas

O fato de p2 agora mostrar “OK” é irrelevante em relação ao status do RAID 5.

Espero que este servidor tenha backups, porque é improvável que você consiga recuperá-los. Também não acredito que tw_cli suporte forçar um array online. Embora o seguinte não ajude você a recuperar dados dessa matriz com falha, aqui está o que recomendo:

  1. Substitua a unidade com falha/ausente (p1)
  2. Como a placa não suporta RAID 6, não podemos usá-lo (recomendado para unidades grandes), então teremos que usar RAID 10. Recriar com RAID 10, criar as partições, formatar/montar e atualizar/etc /fstab.
  3. Restaurar dos backups, espero que você tenha

Quem configurou isso como um RAID 5 com um sobressalente (também não está configurado corretamente) não foi o mais inteligente.

informação relacionada