Перестроение массива на 3ware 9690SA-8I

Перестроение массива на 3ware 9690SA-8I

Краткая версия

  1. Массив RAID10 работает нормально
  2. Перезагрузите сервер в рамках технического обслуживания.
  3. Массив неработоспособен (нет доступа вообще)
  4. В журналах контроллера указано, что один диск неисправен
  5. Извлеките диск и проверьте — поврежденных секторов не обнаружено.
  6. Будьте осторожны, замените диск на заведомо исправный
  7. Контроллер не перестраивает массив на новый диск
  8. Даже при отказе всего одного диска контроллер сделал весь массив RAID10 недоступным

А теперь длинная, подробная версия:

У меня есть массив RAID10 (8x1 ТБ) на карте 3ware 9690, работающий на сервере Ubuntu 1110.

Было обновление ядра, поэтому я запланировал перезагрузку, после которой массив стал недоступен. Я проверил статус, диск в массиве умер, но контроллер перевел весь массив в состояние «неработоспособности», а не просто деградировал (какой смысл в RAID теперь ;-).

После извлечения «мертвого» диска я провожу быструю проверку, чтобы убедиться в его полной работоспособности и отсутствии поврежденных секторов.

Я пытаюсь вставить диск обратно, но массив по-прежнему отмечает диск как деградировавший (запоминая серийный номер или что-то в этом роде??), а весь массив — как неработоспособный...

Поэтому я меняю его на заведомо рабочий диск (не такой же емкости, но большей — все равно должен работать) и начинаю перестроение с новым диском в качестве замены. Это немедленно завершается ошибкой "(0x0B:0x0033): Unit busy : Failed to start Rebuild on Unit 0". Устройство не должно быть занято, так как оно не смонтировано (сама карта указана в lshw, но массив, который она предоставляет, — нет).

Я сейчас практически в тупике, я не понимаю, как может выйти из строя один диск в RAID10, из-за чего весь массив станет недоступным, ухудшится, я могу понять, но станет недоступным?? Я не думаю, что контроллер неисправен, так как до перезагрузки он был полностью функционален.


> info c0

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-10   INOPERABLE     -       -       256K    3725.25   Ri     ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            SAMSUNG HD103SJ
p1    OK             u0   931.51 GB SATA  1   -            SAMSUNG HD103SJ
p2    OK             u0   931.51 GB SATA  2   -            SAMSUNG HD103SJ
p3    OK             u0   931.51 GB SATA  3   -            SAMSUNG HD103SJ
p4    OK             u0   931.51 GB SATA  4   -            SAMSUNG HD103SJ
p5    OK             -    1.36 TB   SATA  5   -            ST31500341AS
p6    OK             u0   931.51 GB SATA  6   -            SAMSUNG HD103SJ
p7    OK             u0   931.51 GB SATA  7   -            SAMSUNG HD103SJ

> /c0/u0 start rebuild disk=5

Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed.
(0x0B:0x0033): Unit busy

решение1

Связался со службой поддержки LSI и одним из их техников 2-го уровня, который сошел с ума, чтобы написать скрипт и хак прошивки, чтобы привести массив в обычное деградированное состояние.
Оттуда все было как обычно, чтобы присоединить новый диск к массиву и перестроить его.

Связанный контент