3ware: Сброс питания привода при попытке перестройки

3ware: Сброс питания привода при попытке перестройки

У меня есть RAID bus controller: 3ware Inc 9550SX SATA-II RAID PCI-Xс четырьмя дисками, со следующим текущим состоянием:

tw_cli> /c1 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    REBUILD-PAUSED 0%      -       256K    931.303   OFF    OFF
u1    SPARE     OK             -       -       -       465.753   -      OFF

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     OK               u0     465.76 GB   976773168     WD-WCAS87320631
p1     OK               u0     465.76 GB   976773168     WD-WCAS87223554
p2     DEGRADED         u0     465.76 GB   976773168     WD-WCAS87159042
p3     OK               u1     465.76 GB   976773168     WD-WMAYP6812676
p4     NOT-PRESENT      -      -           -             -
p5     NOT-PRESENT      -      -           -             -
p6     NOT-PRESENT      -      -           -             -
p7     NOT-PRESENT      -      -           -             -

Перестроение включено. Иногда оно запускается (Статус: REBUILDING), вроде бы что-то делает в течение минуты или около того, затем возвращается к REBUILD-PAUSED. %RCmplНикогда не превышает 0%. Журнал ( /var/log/messages) сообщает примерно каждые пять минут:

Dec  5 23:41:57 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x000B): Rebuild started:unit=0.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x003A): Drive power on reset detected:port=1.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x001A): Drive inserted:port=1.

Я новичок в этом оборудовании, и я унаследовал машину и задачу по ее обслуживанию. О чем это может свидетельствовать? Насколько велика моя проблема? Что мне делать?


Новые события

Dec  6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current<4>3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec  6 00:25:42 somelinux kernel: : sense key=0x2
Dec  6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec  6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec  6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec  6 00:25:43 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x001E): Unit inoperable:unit=0.
Dec  6 00:28:02 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec  6 00:28:02 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:28:02 somelinux kernel: end_request: I/O error, dev sdc, sector 104927621
Dec  6 00:28:02 somelinux kernel: xfs_force_shutdown(dm-0,0x2) called from line 956 of file fs/xfs/xfs_log.c.  Return address = 0xc028860d

... и ...

tw_cli> /c1 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    INOPERABLE     -       -       256K    931.303   OFF    OFF
u1    SPARE     OK             -       -       -       465.753   -      OFF

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     OK               u0     465.76 GB   976773168     WD-WCAS87320631
p1     NOT-PRESENT      -      -           -             -
p2     OK               u0     465.76 GB   976773168     WD-WCAS87159042
p3     OK               u1     465.76 GB   976773168     WD-WMAYP6812676
p4     NOT-PRESENT      -      -           -             -
p5     NOT-PRESENT      -      -           -             -
p6     NOT-PRESENT      -      -           -             -
p7     NOT-PRESENT      -      -           -             -

Похоже, что p1 находится в очень плохом состоянии.


Продолжение

Он всегда работал несколько минут/часов, прежде чем становился НЕРАБОТОСПОСОБНЫМ. Таким образом, мне удалось сделать резервную копию данных. Мне очень повезло. Я узнал, что мне нужно быть более внимательным, иначе нет смысла иметь избыточное хранилище.

Удалил старый массив. Удалил неисправный диск. Определил новый массив с 3 хорошими элементами. Восстановил файловые системы. Восстановил резервные копии. Счастливый конец.

решение1

Приготовьтесь.

Ваш RAID 5 мертв:

u0    RAID-5    INOPERABLE     -       -       256K    931.303   OFF    OFF

Это также причина ошибок SCSI / I/O. Ваш RAID 5 — это не 4 диска; это всего лишь 3. Четвертый диск, p3, находится в своем собственном блоке, u1, а не в основном блоке, u0.

Судя по предоставленному вами тексту, вот что, вероятно, произошло:

  1. p2 деградировал, и вы попытались его восстановить
  2. В это время p1 перестал обнаруживаться
  3. Сбой RAID 5, так как 2 диска не работали/не были обнаружены

Тот факт, что p2 теперь показывает «OK», не имеет значения по отношению к статусу RAID 5.

Надеюсь, у этого сервера есть резервные копии, потому что вряд ли вы сможете восстановить это. Я также не верю, что tw_cli поддерживает принудительное включение массива в онлайн. Хотя следующее не поможет вам извлечь данные из этого неисправного массива, вот что я рекомендую:

  1. Замените неисправный/отсутствующий диск (p1)
  2. Поскольку карта не поддерживает RAID 6, мы не можем его использовать (рекомендуется для больших дисков), поэтому нам придется использовать RAID 10. Пересоздайте с RAID 10, создайте разделы, отформатируйте/смонтируйте и обновите /etc/fstab.
  3. Восстановите из резервных копий, которые, я надеюсь, у вас есть.

Тот, кто настроил его как RAID 5 с запасным диском (он тоже настроен неправильно), был не самым умным.

Связанный контент