DL380 G5、RAID5、ext3、RAID 失敗

DL380 G5、RAID5、ext3、RAID 失敗

我們有一台舊的 HP DL380G5 伺服器,在 RAID5 陣列中配備 5 個 300GB SCSI 3.5 吋磁碟,位於外部托架中,格式化為具有 ext3 檔案系統的邏輯卷,可託管 1.2 TB 的敏感臨床患者資料。

兩個磁碟在 hpacucli 中顯示出預測性故障,因此我先更換了其中一個,然後看到它沒問題,但我沒有看到它還顯示“準備重建”。我也完全不小心改了第二個,現在它說 RAID 失敗了。

我退回舊磁碟,嘗試重新啟動伺服器,但它現在在啟動過程中使我進入復原模式,並表示找不到邏輯磁碟區。

我能做些什麼來嘗試恢復這個狀態嗎?不幸的是,我們沒有備份。任何幫助將不勝感激!

我正在考慮將兩個舊驅動器退回,這是否有可能恢復 RAID?

答案1

對不起。但這是操作員錯誤。

您的 RAID5 陣列上有兩個發生故障的磁碟,並且您刪除的磁碟數量超出了陣列所能承受的數量。

在沒有任何備份的情況下執行此操作是更大的錯誤。

您應該聯絡資料復原公司,嘗試從損壞的邏輯磁碟機中擷取資料。

答案2

請勿再次重新開啟系統電源。將其關閉,致電資料恢復服務。有許多服務允許遠端恢復此類故障。這個時候,你能做的就是讓事情變得更糟。

這通常涉及將所有磁碟機直接連接到已知良好的 HBA(不是 RAID 卡或其他控制器!),並使用遠端管理工具啟動特定的可下載 Linux 映像。然後,該公司遠端存取系統、評估磁碟狀態並恢復任何剩餘的 RAID 元資料。使用專有軟體,他們可以重新組裝虛擬 RAID 磁碟(技術細節:通常是插入標準 Linux 裝置映射器系統的東西)。然後,這會在軟體中公開 RAID 唯讀(沒有 RAID SoC 加速器)。接下來的步驟是驗證資料沒有損壞而無法使用,並將虛擬磁碟複製到新磁碟以完成資料復原。之後您就可以擔心系統恢復並運作了。

雖然我不會在這裡命名任何服務,但大多數服務都很容易找到,並且對於具有遠端服務的服務(節省了將 RAID 驅動器 + 恢復驅動器運送給他們並等待恢復 + 克隆和然後他們將其發送回)您將受益於數據從未真正離開您的設施。


一點好消息:只要 RAID 控制器(或您)沒有向任何磁碟寫入任何新數據,並且故障前警告不是故障警告,實際上有 99.9999% 的可能性一個好的數據恢復團隊可以恢復所有數據,而且速度也相當快。

答案3

回覆:恢復舊驅動器。

由於您的 RAID 已經完全失效,因此重新安裝兩個故障前磁碟機不會對您造成任何損失。

請務必將它們安裝在原始的托架中。

請記住,它們是預先失敗的,而不是徹底失敗的,因此它們很有可能會運行足夠長的時間來挽救您的資料。

突襲有可能根本不會出現,控制器可能會要求“重置”突襲(選擇“否”/取消),而突襲控制器也有可能會自動重置突襲,這會否定任何值。 。

因此,如果 RAID 出現,您的首要任務就是取出資料。這意味著至少有 1.2 TB 的可用空間並準備好複製數據,並且Linux 環境中的robocopyor或 等工具 準備好運行。如果您的驅動器正在浪費最後幾分鐘,您不想浪費時間閱讀手冊頁並弄清楚語法。xcopy32rsync


一旦您的資料安全,然後使用新磁碟機將 raid 重新建立為 raid6。您將減少 300GB 的容量,但獲得兩個驅動器的容差。或增加一個額外的驅動器並考慮使用 6 個驅動器組成 raid10。或考慮完全退役這台機器; G5已經有10多年的歷史了,確實不再適合執行重要的生產任務。

並且不要嘗試啟動,但也要設定適當的備份解決方案。還會有下次的。

相關內容