
TL;DR 版本
- RAID10陣列工作正常
- 作為維護的一部分重新啟動伺服器
- 數組無法操作(無法存取)
- 控制器日誌顯示單一驅動器損壞
- 刪除磁碟機並測試 - 未發現壞磁區
- 為了謹慎起見,請用已知良好的驅動器替換驅動器
- 控制器不會將陣列重建到新磁碟機上
- 即使只有 1 個磁碟機發生故障,控制器也會使整個 RAID10 陣列無法存取
現在是長而詳細的版本:
我在 Ubuntu 1110 伺服器上運行的 3ware 9690 卡上有一個 RAID10 (8x1TB) 陣列。
有一個核心更新,所以我安排了重新啟動,之後陣列將無法存取。我檢查了陣列中驅動器已失效的狀態,但控制器已將整個陣列置於“無法操作”狀態,而不是簡單地降級(現在 RAID 的意義何在;-)。
取出“死”驅動器後,我進行了快速測試,發現它完全正常工作,沒有發現壞扇區。
我嘗試將驅動器放回去,但陣列仍然將磁碟標記為降級(記住序號或其他東西?)並且整個陣列無法操作...
因此,我將其更換為已知的工作驅動器(容量不同,但容量更高 - 應該仍然可以工作),並使用新驅動器作為替換啟動重建。此操作立即失敗,並顯示錯誤「(0x0B:0x0033):單元繁忙:無法在單元 0 上啟動重建」。該單元不應該很忙,因為它沒有安裝(卡本身用 lshw 列出,但它提供的陣列不是)。
我現在幾乎陷入了僵局,我不明白如何在 RAID10 上出現單個驅動器故障,從而使整個陣列無法訪問,降級我可以理解但無法訪問?我不認為控制器有故障,因為在重新啟動之前它完全正常工作。
> info c0
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-10 INOPERABLE - - 256K 3725.25 Ri ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 931.51 GB SATA 0 - SAMSUNG HD103SJ
p1 OK u0 931.51 GB SATA 1 - SAMSUNG HD103SJ
p2 OK u0 931.51 GB SATA 2 - SAMSUNG HD103SJ
p3 OK u0 931.51 GB SATA 3 - SAMSUNG HD103SJ
p4 OK u0 931.51 GB SATA 4 - SAMSUNG HD103SJ
p5 OK - 1.36 TB SATA 5 - ST31500341AS
p6 OK u0 931.51 GB SATA 6 - SAMSUNG HD103SJ
p7 OK u0 931.51 GB SATA 7 - SAMSUNG HD103SJ
> /c0/u0 start rebuild disk=5
Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed.
(0x0B:0x0033): Unit busy
答案1
聯繫了 LSI 支援人員和他們的一位二級技術人員,他們瘋狂地編寫了一個腳本和韌體破解程序,使陣列進入正常的降級狀態。
從那裡開始,一切如常,將新磁碟加入陣列並重建。