3Ware 的 tw_cli 中的「DEGRADED」磁碟與「ECC-ERROR」分別代表什麼？

Question 1

ECC錯誤表示磁碟機上至少有一個不可讀的磁區。但是，如果幸運的話，位於該磁碟區上的檔案系統實際上可能不會使用該磁區，因此您仍然可以在此狀態下從陣列複製資料。

還有一些選項可以在重建期間忽略 ECC 錯誤：

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

然而，使用這些選項意味著受壞扇區影響的 RAID 條帶將被損壞（不確定卡在這種情況下會做什麼 - 它可能用零甚至隨機資料替換整個條帶），因此“已恢復”陣列實際上可能存在無法偵測到的損壞（如果受影響的條帶位於某些資料檔案的中間）。在嘗試重建之前將資料從陣列複製到其他位置可能會更安全（至少在嘗試讀取壞區時應該會出現錯誤）。

您應該設定陣列的計劃驗證以儘早捕獲不可讀的磁區，以便您可以更換剛開始損壞的磁碟機。

Answer

ECC錯誤表示磁碟機上至少有一個不可讀的磁區。但是，如果幸運的話，位於該磁碟區上的檔案系統實際上可能不會使用該磁區，因此您仍然可以在此狀態下從陣列複製資料。

還有一些選項可以在重建期間忽略 ECC 錯誤：

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

然而，使用這些選項意味著受壞扇區影響的 RAID 條帶將被損壞（不確定卡在這種情況下會做什麼 - 它可能用零甚至隨機資料替換整個條帶），因此“已恢復”陣列實際上可能存在無法偵測到的損壞（如果受影響的條帶位於某些資料檔案的中間）。在嘗試重建之前將資料從陣列複製到其他位置可能會更安全（至少在嘗試讀取壞區時應該會出現錯誤）。

您應該設定陣列的計劃驗證以儘早捕獲不可讀的磁區，以便您可以更換剛開始損壞的磁碟機。

Question 2

我從未經歷過實體驅動器 (p0) 進入「降級」狀態，但是您可以透過以下方式刪除它們來恢復 ECC-ERROR 驅動器甚至降級驅動器：

/c0 p1 remove

然後發出重新掃描

/c0 rescan

透過以下方式將它們放回襲擊單位

maint rebuild c0 u0 p1

因 ECC 錯誤而導致我失敗的 SATA 驅動器在再次失敗之前我能夠復活，即使只是幾個小時。

Answer