FreeNAS:ZFS 陣列「刪除」多個磁碟機

FreeNAS:ZFS 陣列「刪除」多個磁碟機

這裡的情況有點令人擔憂。希望有人能幫我弄清楚發生了什麼事。

背景

大約五年前,我建立了一個運行 FreeNAS 的 ZFS 伺服器,用於備份和存儲,從 6x 8TB 磁碟 RAID-Z2 陣列開始。直到今天,這種方式仍然運作良好。除了提供 cifs 共享之外,該設備沒有其他作用。

伺服器大部分時間都處於離線狀態(因為它非常耗電),偶爾會開機備份、複製檔案、清理磁碟區等。

幾年前,我決定用另外六個磁碟(也在 RAID Z2 中)擴展此設定(按計劃)。該陣列與第一個陣列連接到相同的硬件,現在已“刪除”了一些單獨的磁碟(一次一個),我將其替換。這些磁碟都透過表面掃描,因此我認為與 ZFS 存在某種不相容性。

已刪除的驅動器

上週我再次給它通電,突然它決定刪除兩個驅動器。由於這是在不丟失卷的情況下可以丟失的最大容量,因此我立即訂購了兩個新的,並使用 Western Digital Data Lifeguard 進行了完整讀取測試(均通過)並更換了舊的。該陣列重新鍍銀並再次標記為“健康”。我還用 DLG 測試了移除的驅動器,令人驚訝的是它們也通過了。重新同步完成後,我繼續運行對此卷的備份。

問題

我剛剛發現六分之四的驅動器現在已被刪除,使卷不可用而不是降級。其中包括兩個全新的驅動器和另外兩個驅動器,其中一個大約五天前也暫時出現了問題,但似乎已自行恢復。第四個被移除的機器直到現在似乎運作都沒有問題。

我的問題是:是什麼導致了這種情況?(當然,我怎麼能恢復音量並最終防止這種情況再次發生?)

我正在調查一些途徑,希望您能提供任何意見:)

力量: 由於這是在脅迫下發生的,我想知道這是否可能是電源問題?電源供應器是海韻 G 系列 G-550W PCGH 版,應該足夠了(硬碟另外採用交錯供電 iirc)。與此相反的是,兩個陣列通常同時進行清理,並且在現在不可用的磁碟區上重新同步兩個磁碟機可以毫無問題地完成。而且幾天前我將一些大檔案複製到第一個陣列中,這也沒有造成問題。如果一個 6x8TB 陣列可以在壓力下保持健康,為什麼另一個陣列在相同情況下就不能呢?請注意,它們並沒有同時受到壓力,並且之前有很長一段時間兩卷都沒有出現問題。

溫度: 兩個最麻煩的驅動器位於主驅動器後面的第二個驅動器托架中。雖然到達這些的空氣溫度會升高,但我還在第二個隔間後面添加了一個風扇,主動從那裡吸出空氣(通過密封的隔板專門在這個隔間周圍漏斗),所以應該有一個更高的空氣流量。

恐怕我還沒有時間設定硬碟溫度監控(除非有我不知道的預設功能)。 CPU溫度受到監控,但在這方面當然沒有幫助。麻煩的磁碟也從報告概述中消失了,所以我現在甚至看不到它們的 I/O 歷史記錄。

控制器: 第二個陣列連接到 Delock PCI Express SATA 控制器。我想知道這個東西是否可能無法應付資料吞吐量?在這種情況下,我不確定如何測試它。我也不確定為什麼四個驅動器被刪除,而同一陣列中的另外兩個驅動器到目前為止仍繼續正常運行(報告為“在線”)。

SATA 電纜: 這些我還需要測試,所以待定。電纜被整齊地隱藏起來,不會產生強烈的彎曲,但隨著時間的推移,它們當然可能會出現故障。由於佈線的原因,同一陣列中同一陣列中的四個驅動器有可能在同一天不可用,但這在我的嫌疑人名單中排得很靠後。

硬體:

  • 主機板:MSI C236M 工作站(具有六個 SATA 端口,由陣列 #1 使用)
  • 中央處理器:英特爾至強 E3-1275 v5
  • 記憶:金士頓 KVR21E15D8K2 x2 (ECC)
  • 電源供應器:海韻 G 系列 G-550W PCGH 版
  • 第二控制器:解鎖 PCI Express x2 卡 -> 10 x 內部 SATA III - LP
  • 數組#1(RAID-Z2 中的 6x 8TB,現已穩定運作 5 年):
    • WD80EFZX x3
    • ST8000VN0002 x2
    • ST8000DM002 x1
  • 數組#2(RAID-Z2 中 6 個 8TB):
    • WD80EFAX(沒有問題)
    • ST8000VN0022(之前拆過一次,DLG通過,目前運作正常)
    • WD80EFAX x2(現有驅動器,現在也已刪除)
    • WD80EFZZ x2(新的替換驅動器,現已移除)
    • ST8000VN0022 x2(幾天前刪除,替換為WD80EFZZ x2)

相關內容