
Краткая версия
- Массив RAID10 работает нормально
- Перезагрузите сервер в рамках технического обслуживания.
- Массив неработоспособен (нет доступа вообще)
- В журналах контроллера указано, что один диск неисправен
- Извлеките диск и проверьте — поврежденных секторов не обнаружено.
- Будьте осторожны, замените диск на заведомо исправный
- Контроллер не перестраивает массив на новый диск
- Даже при отказе всего одного диска контроллер сделал весь массив RAID10 недоступным
А теперь длинная, подробная версия:
У меня есть массив RAID10 (8x1 ТБ) на карте 3ware 9690, работающий на сервере Ubuntu 1110.
Было обновление ядра, поэтому я запланировал перезагрузку, после которой массив стал недоступен. Я проверил статус, диск в массиве умер, но контроллер перевел весь массив в состояние «неработоспособности», а не просто деградировал (какой смысл в RAID теперь ;-).
После извлечения «мертвого» диска я провожу быструю проверку, чтобы убедиться в его полной работоспособности и отсутствии поврежденных секторов.
Я пытаюсь вставить диск обратно, но массив по-прежнему отмечает диск как деградировавший (запоминая серийный номер или что-то в этом роде??), а весь массив — как неработоспособный...
Поэтому я меняю его на заведомо рабочий диск (не такой же емкости, но большей — все равно должен работать) и начинаю перестроение с новым диском в качестве замены. Это немедленно завершается ошибкой "(0x0B:0x0033): Unit busy : Failed to start Rebuild on Unit 0". Устройство не должно быть занято, так как оно не смонтировано (сама карта указана в lshw, но массив, который она предоставляет, — нет).
Я сейчас практически в тупике, я не понимаю, как может выйти из строя один диск в RAID10, из-за чего весь массив станет недоступным, ухудшится, я могу понять, но станет недоступным?? Я не думаю, что контроллер неисправен, так как до перезагрузки он был полностью функционален.
> info c0
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-10 INOPERABLE - - 256K 3725.25 Ri ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 931.51 GB SATA 0 - SAMSUNG HD103SJ
p1 OK u0 931.51 GB SATA 1 - SAMSUNG HD103SJ
p2 OK u0 931.51 GB SATA 2 - SAMSUNG HD103SJ
p3 OK u0 931.51 GB SATA 3 - SAMSUNG HD103SJ
p4 OK u0 931.51 GB SATA 4 - SAMSUNG HD103SJ
p5 OK - 1.36 TB SATA 5 - ST31500341AS
p6 OK u0 931.51 GB SATA 6 - SAMSUNG HD103SJ
p7 OK u0 931.51 GB SATA 7 - SAMSUNG HD103SJ
> /c0/u0 start rebuild disk=5
Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed.
(0x0B:0x0033): Unit busy
решение1
Связался со службой поддержки LSI и одним из их техников 2-го уровня, который сошел с ума, чтобы написать скрипт и хак прошивки, чтобы привести массив в обычное деградированное состояние.
Оттуда все было как обычно, чтобы присоединить новый диск к массиву и перестроить его.