在 3ware 9690SA-8I 上重建陣列

在 3ware 9690SA-8I 上重建陣列

TL;DR 版本

  1. RAID10陣列工作正常
  2. 作為維護的一部分重新啟動伺服器
  3. 數組無法操作(無法存取)
  4. 控制器日誌顯示單一驅動器損壞
  5. 刪除磁碟機並測試 - 未發現壞磁區
  6. 為了謹慎起見,請用已知良好的驅動器替換驅動器
  7. 控制器不會將陣列重建到新磁碟機上
  8. 即使只有 1 個磁碟機發生故障,控制器也會使整個 RAID10 陣列無法存取

現在是長而詳細的版本:

我在 Ubuntu 1110 伺服器上運行的 3ware 9690 卡上有一個 RAID10 (8x1TB) 陣列。

有一個核心更新,所以我安排了重新啟動,之後陣列將無法存取。我檢查了陣列中驅動器已失效的狀態,但控制器已將整個陣列置於“無法操作”狀態,而不是簡單地降級(現在 RAID 的意義何在;-)。

取出“死”驅動器後,我進行了快速測試,發現它完全正常工作,沒有發現壞扇區。

我嘗試將驅動器放回去,但陣列仍然將磁碟標記為降級(記住序號或其他東西?)並且整個陣列無法操作...

因此,我將其更換為已知的工作驅動器(容量不同,但容量更高 - 應該仍然可以工作),並使用新驅動器作為替換啟動重建。此操作立即失敗,並顯示錯誤「(0x0B:0x0033):單元繁忙:無法在單元 0 上啟動重建」。該單元不應該很忙,因為它沒有安裝(卡本身用 lshw 列出,但它提供的陣列不是)。

我現在幾乎陷入了僵局,我不明白如何在 RAID10 上出現單個驅動器故障,從而使整個陣列無法訪問,降級我可以理解但無法訪問?我不認為控制器有故障,因為在重新啟動之前它完全正常工作。


> info c0

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-10   INOPERABLE     -       -       256K    3725.25   Ri     ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            SAMSUNG HD103SJ
p1    OK             u0   931.51 GB SATA  1   -            SAMSUNG HD103SJ
p2    OK             u0   931.51 GB SATA  2   -            SAMSUNG HD103SJ
p3    OK             u0   931.51 GB SATA  3   -            SAMSUNG HD103SJ
p4    OK             u0   931.51 GB SATA  4   -            SAMSUNG HD103SJ
p5    OK             -    1.36 TB   SATA  5   -            ST31500341AS
p6    OK             u0   931.51 GB SATA  6   -            SAMSUNG HD103SJ
p7    OK             u0   931.51 GB SATA  7   -            SAMSUNG HD103SJ

> /c0/u0 start rebuild disk=5

Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed.
(0x0B:0x0033): Unit busy

答案1

聯繫了 LSI 支援人員和他們的一位二級技術人員,他們瘋狂地編寫了一個腳本和韌體破解程序,使陣列進入正常的降級狀態。
從那裡開始,一切如常,將新磁碟加入陣列並重建。

相關內容