
Tenho um RAID bus controller: 3ware Inc 9550SX SATA-II RAID PCI-X
com quatro discos, com o seguinte estado atual:
tw_cli> /c1 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 REBUILD-PAUSED 0% - 256K 931.303 OFF OFF
u1 SPARE OK - - - 465.753 - OFF
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 OK u0 465.76 GB 976773168 WD-WCAS87320631
p1 OK u0 465.76 GB 976773168 WD-WCAS87223554
p2 DEGRADED u0 465.76 GB 976773168 WD-WCAS87159042
p3 OK u1 465.76 GB 976773168 WD-WMAYP6812676
p4 NOT-PRESENT - - - -
p5 NOT-PRESENT - - - -
p6 NOT-PRESENT - - - -
p7 NOT-PRESENT - - - -
A reconstrução está habilitada. Às vezes, ele começa (Status: REBUILDING
), aparentemente faz coisas por um minuto ou mais e depois volta para REBUILD-PAUSED
. O %RCmpl
nunca passa de 0%. Log ( /var/log/messages
) diz a cada cinco minutos:
Dec 5 23:41:57 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x000B): Rebuild started:unit=0.
Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x003A): Drive power on reset detected:port=1.
Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x001A): Drive inserted:port=1.
Sou novo neste hardware e herdei a máquina e a tarefa de manutenção. O que isso poderia indicar? Quão grande é o problema que tenho? O que devo fazer?
Novos eventos
Dec 6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current<4>3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec 6 00:25:42 somelinux kernel: : sense key=0x2
Dec 6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec 6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec 6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec 6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec 6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec 6 00:25:43 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x001E): Unit inoperable:unit=0.
Dec 6 00:28:02 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec 6 00:28:02 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec 6 00:28:02 somelinux kernel: end_request: I/O error, dev sdc, sector 104927621
Dec 6 00:28:02 somelinux kernel: xfs_force_shutdown(dm-0,0x2) called from line 956 of file fs/xfs/xfs_log.c. Return address = 0xc028860d
... e ...
tw_cli> /c1 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 INOPERABLE - - 256K 931.303 OFF OFF
u1 SPARE OK - - - 465.753 - OFF
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 OK u0 465.76 GB 976773168 WD-WCAS87320631
p1 NOT-PRESENT - - - -
p2 OK u0 465.76 GB 976773168 WD-WCAS87159042
p3 OK u1 465.76 GB 976773168 WD-WMAYP6812676
p4 NOT-PRESENT - - - -
p5 NOT-PRESENT - - - -
p6 NOT-PRESENT - - - -
p7 NOT-PRESENT - - - -
Parece que p1 está em péssimo estado.
Siga-me
Sempre funcionou por alguns minutos/horas antes de se tornar INOPERÁVEL. Dessa forma consegui fazer um backup dos dados. Eu tive muita sorte. Aprendi que preciso prestar mais atenção, caso contrário não adianta ter armazenamento redundante.
Excluiu o array antigo. Removido o disco com defeito. Definiu um novo array com 3 bons membros. Sistemas de arquivos recriados. Backups restaurados. Final feliz.
Responder1
Prepara-te.
Seu RAID 5 está morto:
u0 RAID-5 INOPERABLE - - 256K 931.303 OFF OFF
Esse também é o motivo dos erros SCSI/I/O. Seu RAID 5 não tem 4 discos; são apenas 3. O quarto disco, p3, está em sua própria unidade, u1, e não na unidade primária, u0.
A julgar pelo texto que você forneceu, eis o que provavelmente aconteceu:
- p2 está degradado e você tentou reconstruir
- Durante isso, p1 parou de ser detectado
- Falha no RAID 5 porque 2 unidades não estavam funcionando/detectadas
O fato de p2 agora mostrar “OK” é irrelevante em relação ao status do RAID 5.
Espero que este servidor tenha backups, porque é improvável que você consiga recuperá-los. Também não acredito que tw_cli suporte forçar um array online. Embora o seguinte não ajude você a recuperar dados dessa matriz com falha, aqui está o que recomendo:
- Substitua a unidade com falha/ausente (p1)
- Como a placa não suporta RAID 6, não podemos usá-lo (recomendado para unidades grandes), então teremos que usar RAID 10. Recriar com RAID 10, criar as partições, formatar/montar e atualizar/etc /fstab.
- Restaurar dos backups, espero que você tenha
Quem configurou isso como um RAID 5 com um sobressalente (também não está configurado corretamente) não foi o mais inteligente.