SMART錯誤的殺傷力有多大?

SMART錯誤的殺傷力有多大?

我們有一台採用 RAID 5 的 40 TB 儲存伺服器,配備 12 個 2 TB 硬碟。一個驅動器充當熱備用驅動器,並由硬體 RAID 控制器進行管理。

由於某種被遺棄的原因,三個驅動器顯然同時發生故障。其中一個似乎完全失敗,而兩個則顯示 SMART 錯誤。熱備用似乎沒有被轉換為陣列的一部分,但我不確定這是否會自動發生。

問題是,是否可以重新啟動這兩個驅動器,重建陣列,然後在這些驅動器最終出現故障之前保存該資料?我對 SMART 錯誤的了解是,它不是徹底的失敗,而只是預測的失敗。

顯然這些驅動器很快就需要更換,但它們是完全損壞還是可以保存?

答案1

應盡快更換完全故障的驅動器,並且陣列可以自行重建。根據這項研究, SMART 故障的驅動器比未發生 SMART 故障的驅動器更有可能發生故障:https://static.googleusercontent.com/media/research.google.com/en//archive/disk_failures.pdf。它們也應該被替換,並且永遠不會再在重要用例中使用。

假設您使用相同的硬碟,那麼值得購買多個備件,數量取決於您期望儲存裝置保持服務的時間長短。

我認為,對於大於 1 TB 的磁碟機陣列,RAID5 不是一個好的選擇。 RAID5重建時間較長,且重建時效能較慢。當陣列中有許多 (12) 個磁碟時,RAID5 也不是很有幫助,因為它只能防止一個故障。第二次失敗就會毀掉整個陣列。

對於未來的構建,我建議改用 RAID10,它將提供更一致的快速性能,同時提供更好的容錯能力。

答案2

據我了解,RAID 5 允許陣列中 1 個磁碟發生故障。根據需要相應地建造熱備用。控制器/GUI 或您正在使用的任何前端都用於執行此操作。重建 RAID 所需的時間取決於使用的​​資料量。一旦熱備盤建成,理論上您的 RAID 將恢復正常。此時,將出現 SMART 錯誤的其他驅動器之一離線並使用熱備用過程重建它。完成直至更換所有有錯誤的硬碟。我會更換其中顯示 SMART 錯誤的關鍵資料的任何磁碟。您可以繼續使用 RAID 6,當然您必須透過移動資料、重建陣列並將其放回去來備份所有資料。 RAID 6 允許更多磁碟故障,但寫入速度確實會受到輕微影響。

相關內容