兩週內 3ware raid 上的三個磁碟出現 ECC 錯誤

兩週內 3ware raid 上的三個磁碟出現 ECC 錯誤

我有一台為客戶維護的伺服器,它是一台基於 Intel Nehalem 的計算機,所以不是新的,但可以正常工作。它有一個 3ware 9650SE-24M8 卡,連接有 20 個驅動器和 4 個空插槽,配置為 5 個 raid5 陣列。其中三個陣列由 2tb 驅動器組成,另外兩個陣列由 3tb 驅動器組成。在過去的兩周里,我們丟失了同一個陣列中的 3 個 3TB 驅動器,其中兩個是在同一天丟失的。我們每晚進行備份,因此不會丟失數據,但停機時間和更換磁碟的成本高昂。遺失是指該卡正在報告 ECC 錯誤狀態。 2TB 硬碟的運作時間接近 25000 小時,3TB 硬碟的運作時間接近 10000 小時。

環境溫度約為 25°C,而驅動器(根據 smart 的說法)空轉溫度約為 28-30°C。作業系統是fedora Linux 13 amd64(我已經嘗試升級六個月了,但無法獲得足夠穩定的運行,無法做好準備)。

我現在不知道該怎麼辦,到目前為止,已經有兩個驅動器死掉了,都是 1tb 並且很舊,而且相隔幾個月。幫助或建議?

相關內容