LSI raidcontroller 背後的 zfs 錯誤

Question 1

zfs scrub是“檢查 zfs 錯誤的系統”。讀取儲存在磁碟區中的所有資料所需的時間一樣長（按 txg 的順序排列，因此可能會尋找許多數據，具體取決於池的滿度以及資料的寫入方式）。一旦開始，zfs status將顯示一些估計值。可以停止正在運作的擦洗。

如果您想要定期檢查某些內容zpool status，最簡單的方法是zpool status | grep -C 100 Status定期執行（每 6 小時一次）並透過電子郵件發送輸出（如果有）。您可能會找到適合您最喜歡的監控系統的插件，例如 nagios。或者自己寫也很簡單。

僅熱插拔驅動器不會觸發重新同步。你必須奔跑zfs replace才能實現這一點。

您看到的讀取錯誤也可能是某種控制器故障。儘管它是企業硬件，但這些（硬體 RAID）控制器有時會表現得很奇怪。例如，這些錯誤可能是命令花費太長時間的結果 - 控制器正忙於處理任何事情。這就是為什麼除非必要，否則我會盡量遠離這些。

我會檢查磁碟機上的 SMART 資料（請參閱參考資料man smartctl）並清理池。如果兩者看起來都正常，請清除錯誤並且不要弄亂您的池。因為如果池接近滿，則在重新同步期間讀取所有資料實際上可能會觸發另一個錯誤。一旦您再次在同一驅動器上看到錯誤，就開始恐慌;)。

順便提一句。為了獲得最佳效能，您應該在 RAIDZ2 vdev 中使用 n^2+2 磁碟機。

Answer

zfs scrub是“檢查 zfs 錯誤的系統”。讀取儲存在磁碟區中的所有資料所需的時間一樣長（按 txg 的順序排列，因此可能會尋找許多數據，具體取決於池的滿度以及資料的寫入方式）。一旦開始，zfs status將顯示一些估計值。可以停止正在運作的擦洗。

如果您想要定期檢查某些內容zpool status，最簡單的方法是zpool status | grep -C 100 Status定期執行（每 6 小時一次）並透過電子郵件發送輸出（如果有）。您可能會找到適合您最喜歡的監控系統的插件，例如 nagios。或者自己寫也很簡單。

僅熱插拔驅動器不會觸發重新同步。你必須奔跑zfs replace才能實現這一點。

您看到的讀取錯誤也可能是某種控制器故障。儘管它是企業硬件，但這些（硬體 RAID）控制器有時會表現得很奇怪。例如，這些錯誤可能是命令花費太長時間的結果 - 控制器正忙於處理任何事情。這就是為什麼除非必要，否則我會盡量遠離這些。

我會檢查磁碟機上的 SMART 資料（請參閱參考資料man smartctl）並清理池。如果兩者看起來都正常，請清除錯誤並且不要弄亂您的池。因為如果池接近滿，則在重新同步期間讀取所有資料實際上可能會觸發另一個錯誤。一旦您再次在同一驅動器上看到錯誤，就開始恐慌;)。

順便提一句。為了獲得最佳效能，您應該在 RAIDZ2 vdev 中使用 n^2+2 磁碟機。

Question 2

在這種情況下，我會照 ZFS 告訴你的去做。請運行擦洗。

我每週按計劃清理我的系統。我也用茲夫觀察者用於監控 Linux ZFS 安裝運作狀況的守護程式。

您的 ZFS 陣列可能未調整，因此有一些值可以幫助提高清理效能，但此時，您應該執行它。

對於另一個問題，您的熱插拔可能不會達到您期望的效果......請參閱下面的咆哮。

咆哮：

在硬體控制器後面放置一堆 RAID-0 虛擬磁碟機是個壞主意！

你有兩個世界中最糟糕的。可恢復性和錯誤檢查是有限的。故障磁碟本質上是故障虛擬驅動器，並且存在熱插拔影響。假設您刪除了有問題的磁碟。您可能需要建立一個新的虛擬磁碟，或者最終可能會得到不同的驅動器枚舉。

在某一點上，最好獲得一個真正的 HBA 並以嘗試直通設備（沒有 RAID 元資料）的方式運行磁碟，或者只需在受硬體陣列保護的 vdev 之上運行 ZFS。例如，在控制器上執行 RAID-6 並在其上安裝 ZFS。或執行多個 RAID-X 群組並使用 ZFS 對產生的 vdev 進行鏡像或條帶化。

Answer