3ware 9690SA-8I에서 어레이 재구축

3ware 9690SA-8I에서 어레이 재구축

TL, DR 버전

  1. RAID10 어레이가 제대로 작동함
  2. 유지 관리의 일환으로 서버 재부팅
  3. 어레이 작동 불가능(아무 액세스도 없음)
  4. 컨트롤러 로그에 단일 드라이브가 불량하다고 표시됨
  5. 드라이브 제거 및 테스트 - 불량 섹터가 발견되지 않음
  6. 조심하세요. 드라이브를 정상 작동이 확인된 드라이브로 교체하세요.
  7. 컨트롤러가 어레이를 새 드라이브에 재구축하지 않습니다.
  8. 단 1개의 드라이브 장애에도 불구하고 컨트롤러로 인해 전체 RAID10 어레이에 액세스할 수 없게 되었습니다.

이제 길고 상세한 버전입니다.

Ubuntu 1110 서버에서 실행되는 3ware 9690 카드에 RAID10(8x1TB) 어레이가 있습니다.

커널 업데이트가 있어서 재부팅을 예약했는데 그 후에는 어레이에 액세스할 수 없게 되었습니다. 어레이에서 드라이브가 죽은 상태를 확인했지만 컨트롤러가 단순히 성능 저하가 아닌 전체 어레이를 '작동 불가능' 상태로 전환했습니다(지금 RAID의 요점은 무엇입니까 ;-).

'죽은' 드라이브를 꺼낸 후 빠른 테스트를 실행하여 불량 섹터 없이 완벽하게 작동하는지 확인했습니다.

드라이브를 다시 장착하려고 하지만 어레이에서 여전히 디스크의 성능이 저하된 것으로 표시되고(일련 번호 같은 것을 기억하나요??) 전체 어레이가 작동할 수 없는 것으로 표시됩니다.

그래서 작동하는 것으로 알려진 드라이브(동일한 용량은 아니지만 더 높은 용량은 계속 작동해야 함)로 교체하고 새 드라이브를 교체용으로 사용하여 재구축을 시작합니다. "(0x0B:0x0033): 장치 사용 중: 장치 0에서 재구축을 시작하지 못했습니다." 오류와 함께 즉시 실패합니다. 장치는 마운트되지 않았으므로 사용 중이어서는 안 됩니다(카드 자체는 lshw로 나열되지만 제공하는 어레이는 그렇지 않음).

나는 지금 거의 난관에 처해 있습니다. RAID10에서 단일 드라이브 오류로 인해 전체 어레이에 액세스할 수 없게 되고 성능이 저하되는 것은 이해할 수 있지만 액세스할 수 없게 되는 이유를 이해할 수 없습니다. 재부팅하기 전에는 컨트롤러가 완전히 작동했기 때문에 컨트롤러에 결함이 있다고 생각하지 않습니다.


> info c0

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-10   INOPERABLE     -       -       256K    3725.25   Ri     ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            SAMSUNG HD103SJ
p1    OK             u0   931.51 GB SATA  1   -            SAMSUNG HD103SJ
p2    OK             u0   931.51 GB SATA  2   -            SAMSUNG HD103SJ
p3    OK             u0   931.51 GB SATA  3   -            SAMSUNG HD103SJ
p4    OK             u0   931.51 GB SATA  4   -            SAMSUNG HD103SJ
p5    OK             -    1.36 TB   SATA  5   -            ST31500341AS
p6    OK             u0   931.51 GB SATA  6   -            SAMSUNG HD103SJ
p7    OK             u0   931.51 GB SATA  7   -            SAMSUNG HD103SJ

> /c0/u0 start rebuild disk=5

Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed.
(0x0B:0x0033): Unit busy

답변1

LSI 지원팀과 2단계 기술 담당자 중 한 명에게 연락하여 어레이를 일반적인 성능 저하 상태로 만드는 스크립트 및 펌웨어 해킹을 작성했습니다.
거기서부터 새 디스크를 어레이에 결합하고 재구축하는 것이 평소와 같은 업무였습니다.

관련 정보