我的主要工作機器上有一個在 Windows 10 下工作的 3TB 軟體 RAID 卷,物理上有兩個 3TB 旋轉 rust 磁碟。啟動磁碟區是一個單獨的 NVMe SSD。例如斷電後,RAID 磁碟區重新同步過程需要大約 5 小時不間斷的時間。
剛剛做了一個簡單的實驗:
- 重新啟動、登入、檢查磁碟區是否同步、有序關閉電源。根據過去的經驗,我知道如果此時我重新啟動、登入、檢查磁碟區狀態,我會發現 RAID 已同步。
- 斷開兩個 3TB 硬碟的電源、重新啟動、登入、有序關閉電源。
- 重新連接兩個 3TB 硬碟的電源、重新啟動、登入、檢查磁碟區狀態。
RAID 重新同步程序已開始。我得出的結論是,看到兩個驅動器都斷開連接的事實記錄在 NVMe 驅動器上的 Windows 啟動卷上,並且足以觸發重新同步。
我怎樣才能避免這種情況?我希望在重新連接驅動器之前可以做一些事情,但我願意在斷開它們之前做一些事情。
原始動機和報告:
有時我想用那台我知道可能會崩潰的電腦做一些事情。昨天,我正在清理一位朋友的 M.2 SSD,結果發現它已經出現壞區塊,導致 BIOS 警告並以某種方式阻止 Windows 啟動,包括從另一個磁碟區啟動。所以我
- 驗證我的 RAID 磁碟區是否同步,關閉我的機器
- 斷開兩個旋轉 Rust 驅動器的電源連接器,將故障 M.2 連接到輔助端口
- 嘗試從主連接埠上的 NVMe 啟動 Windows;遊標旋轉了大約 15 分鐘
- 連接 Linux USB 隨身碟、重置、啟動、從故障的 M.2 SSD 中提取關鍵數據
- 關閉電源,取出故障的 M.2 SSD,重新連接電源連接器
- 從 NVMe 重新啟動 Windows。
令我沮喪的是,RAID 重新同步過程開始了。
答案1
我假設 RAID 驅動器在此過程中沒有看到任何變化,但您甚至應該能夠在離線時斷開陣列中的驅動器,例如進行非揮發性表面掃描。如果重建過程開始,則一個(甚至兩個)驅動器上的某些內容發生了變化(這可能表示健康狀況惡化)。
您可能需要對每個磁碟機進行掃描,看看它們是否仍然正常。我不確定您是否正在運行軟體或硬體突襲,但最安全的方法可能是關閉電源,並使用可啟動工具分別對每個驅動器進行表面掃描(只讀!)。硬體 RAID 表示您必須在卡片的 BIOS 上切換連接埠或將 RAID 變更為 JBOD 設定。
從長遠來看,我強烈建議放棄 RAID。正如您所注意到的,重建過程需要越來越長的時間(我上次在 Areca RAID 卡上使用 4TB 硬碟時大約需要 36 小時)。在此視窗期間,另一個驅動器也可能出現故障,因為您可能同時購買了這兩個驅動器,並且它們經歷了完全相同的磨損。
答案2
使用 Windows Server 目錄驗證 SSD 是否經過 Windows Server 2016 和 Windows Server 2019 認證 詢問供應商該磁碟機是否與 Storage Spaces Direct 相容 使用儲存管理軟體檢查儲存上磁碟機的狀態。所有節點都安裝了最新的Windows 更新。如有必要,更新儲存和磁碟機韌體。