
TL, DR 버전
- RAID10 어레이가 제대로 작동함
- 유지 관리의 일환으로 서버 재부팅
- 어레이 작동 불가능(아무 액세스도 없음)
- 컨트롤러 로그에 단일 드라이브가 불량하다고 표시됨
- 드라이브 제거 및 테스트 - 불량 섹터가 발견되지 않음
- 조심하세요. 드라이브를 정상 작동이 확인된 드라이브로 교체하세요.
- 컨트롤러가 어레이를 새 드라이브에 재구축하지 않습니다.
- 단 1개의 드라이브 장애에도 불구하고 컨트롤러로 인해 전체 RAID10 어레이에 액세스할 수 없게 되었습니다.
이제 길고 상세한 버전입니다.
Ubuntu 1110 서버에서 실행되는 3ware 9690 카드에 RAID10(8x1TB) 어레이가 있습니다.
커널 업데이트가 있어서 재부팅을 예약했는데 그 후에는 어레이에 액세스할 수 없게 되었습니다. 어레이에서 드라이브가 죽은 상태를 확인했지만 컨트롤러가 단순히 성능 저하가 아닌 전체 어레이를 '작동 불가능' 상태로 전환했습니다(지금 RAID의 요점은 무엇입니까 ;-).
'죽은' 드라이브를 꺼낸 후 빠른 테스트를 실행하여 불량 섹터 없이 완벽하게 작동하는지 확인했습니다.
드라이브를 다시 장착하려고 하지만 어레이에서 여전히 디스크의 성능이 저하된 것으로 표시되고(일련 번호 같은 것을 기억하나요??) 전체 어레이가 작동할 수 없는 것으로 표시됩니다.
그래서 작동하는 것으로 알려진 드라이브(동일한 용량은 아니지만 더 높은 용량은 계속 작동해야 함)로 교체하고 새 드라이브를 교체용으로 사용하여 재구축을 시작합니다. "(0x0B:0x0033): 장치 사용 중: 장치 0에서 재구축을 시작하지 못했습니다." 오류와 함께 즉시 실패합니다. 장치는 마운트되지 않았으므로 사용 중이어서는 안 됩니다(카드 자체는 lshw로 나열되지만 제공하는 어레이는 그렇지 않음).
나는 지금 거의 난관에 처해 있습니다. RAID10에서 단일 드라이브 오류로 인해 전체 어레이에 액세스할 수 없게 되고 성능이 저하되는 것은 이해할 수 있지만 액세스할 수 없게 되는 이유를 이해할 수 없습니다. 재부팅하기 전에는 컨트롤러가 완전히 작동했기 때문에 컨트롤러에 결함이 있다고 생각하지 않습니다.
> info c0
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-10 INOPERABLE - - 256K 3725.25 Ri ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 931.51 GB SATA 0 - SAMSUNG HD103SJ
p1 OK u0 931.51 GB SATA 1 - SAMSUNG HD103SJ
p2 OK u0 931.51 GB SATA 2 - SAMSUNG HD103SJ
p3 OK u0 931.51 GB SATA 3 - SAMSUNG HD103SJ
p4 OK u0 931.51 GB SATA 4 - SAMSUNG HD103SJ
p5 OK - 1.36 TB SATA 5 - ST31500341AS
p6 OK u0 931.51 GB SATA 6 - SAMSUNG HD103SJ
p7 OK u0 931.51 GB SATA 7 - SAMSUNG HD103SJ
> /c0/u0 start rebuild disk=5
Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed.
(0x0B:0x0033): Unit busy
답변1
LSI 지원팀과 2단계 기술 담당자 중 한 명에게 연락하여 어레이를 일반적인 성능 저하 상태로 만드는 스크립트 및 펌웨어 해킹을 작성했습니다.
거기서부터 새 디스크를 어레이에 결합하고 재구축하는 것이 평소와 같은 업무였습니다.