Dell T610 伺服器上重複發生磁碟故障

Dell T610 伺服器上重複發生磁碟故障

我購買了二手 Poweredge T610,並將其升級為 2 個 Hexcore Xeon X5675 處理器和 96 GB RAM。最初,我在 RAID-5 陣列(Perc6i 控制器)中使用 3 個 WD 綠色 2TB 驅動器,並在虛擬磁碟上安裝 Ubuntu 伺服器。這種設定對我來說效果良好大約一年,然後問題就開始了:

我購買了一些新驅動器來擴展為第二個陣列 - 4 個 3TB WD 紅色驅動器。同時我了解到至少WD green不是一個好的選擇,所以我想在新的VD上備份一些資料。事實證明,Perc6i 不喜歡大於 2TB 的驅動器,但它識別了 3 TB 中的前 2 個。我還沒有開始使用新驅動器設置 VD,但 3 週後,我的 WD 綠色陣列開始損壞(首先僅在某些軟體中出現奇怪的字形,然後出現更嚴重的問題,直到啟動順序損壞)。我最終找到了專業的資料恢復服務,幸運的是他們可以幫助我。我將 Perc6i 換成了 H700,並設置了 4 個 3TB WD 紅色驅動器的 RAID6 陣列(在設置之前我使用戴爾硬體診斷擴展測試對其進行了測試 - 其中任何一個都沒有錯誤)。安裝 Ubuntu、我需要的所有軟體、x2go 等...再次啟動並運行。

現在我遇到了和以前一樣的問題 - 在 X2go 中,它以相同的軟體(生物資訊 artemis 套件)開始,在命令列中吐出字形,看起來我又回到了第一個方向。球童上的所有狀態 LED 均呈綠色常亮,即在線。系統至少沒有識別出任何可預測的故障。

我開始想知道問題可能出在哪裡:

我認為不太可能的是: - 主磁碟故障(再次!),因為驅動器是新的,在擴展測試中沒有壞扇區,並且根本沒有太多的開機時間。 - 第一次災難後,perc6i 控制器已更換為 H700,應該不是問題

我需要幫助來評估: - 背板/電纜問題? (H700 控制器附帶了適用於另一種伺服器類型的電纜,該類型不適合我的機箱- 只需使用另一條SATA6 電纜將控制器連接到背板)順便說一句,驅動器與之前出現故障的驅動器位於相同的托架中,配有原廠戴爾 SATA 電纜。

- 主機板問題? -CPU或RAM問題? -電源(電壓峰值??)

以前有人遇到類似的問題嗎?非常感謝這裡的任何幫助。不幸的是,我還要離開兩週才能訪問伺服器(物理上和網路上),該問題已由我的妻子“報告”,她在我們本地網路中使用伺服器(但不幸的是不會能夠幫助解決問題)。


是的,我確實運行了完整的戴爾硬體診斷程序,沒有任何問題。僅偵測到其中一個磁碟機有缺陷區塊,但我無法重建 raid 5 陣列,因此需要資料復原專家。其他硬體都正常

我只是想知道是否可能存在不一致的問題,例如任何地方的接觸不良,這些問題可能在某一時刻通過測試,但在任何其他時刻都會失敗。或者如果測試沒有涵蓋所有場景...

答案1

根據經驗,這聽起來像是記憶體損壞問題。我首先要嘗試的是記憶體診斷工具。戴爾可透過下載提供它們。

如果沒有發現錯誤,我將拉動所有硬體以達到所需的最低限度,然後將它們添加回來,直到您看到問題為止。非常耗時,但有時是診斷未顯示任何結果的唯一方法。顯然,用硬碟很難做到這一點,但你可以用CPU和RAM做到這一點。不要忘記一次添加一項,否則您將不知道該歸咎於哪一項。

我的另一個建議是使用虛擬機管理程式並建立虛擬機,而不是安裝在裸機上。這將使在發生故障時恢復功能變得更加容易。此外,在安裝應用程式之前建立備份制度將幫助您避免再次需要資料復原服務。

答案2

厄運?請在另一台新電腦上測試硬碟以查看其目前狀態。

請記住,T610 已經有 9 歲了。老實說,我認為任何當前的桌上型電腦都會比 T610 更快。

驅動器韌體可能會產生影響,但您的陣列會將它們標記為外部磁碟,事實上您一次更改它們會更好,沒有戴爾驅動器的韌體與普通驅動器混合,控制器不允許這樣做。

它們在磁碟上的韌體允許控制器對磁碟執行高級功能,而如果使用具有正常韌體的普通磁碟,則陣列將正常工作。

檢測到您的陣列這一事實讓我認為控制器可以看到它們並使用它們。這就是為什麼我一開始就說運氣不好。

相關內容