RAID1 mdadm,自動磁碟機故障並避免只讀檔案系統?

RAID1 mdadm,自動磁碟機故障並避免只讀檔案系統?

我正在管理一台伺服器,該伺服器具有在 mdadm RAID1 中配置的兩個固態磁碟機。伺服器運行帶有 ext4 檔案系統的 RHEL6。

今天晚上,每晚備份開始後不久,伺服器就離線了,控制台會報告磁碟錯誤:在此輸入影像描述

登入控制台後,我發現其中一個磁碟已被 mdadm 標記為故障,並且檔案系統設定為唯讀。

有沒有辦法將 mdadm 配置為在檔案系統重新安裝為唯讀之前使磁碟機發生故障?我寧願作為單一磁碟系統運行一小段時間(直到可以安裝替換磁碟),而不是立即將檔案系統切換到唯讀模式 - 這將保證中斷。

答案1

預設情況下它會這樣做,但當然,我也遇到過類似的問題。 MD 並不真正渴望故障的磁碟(或實際上透過重寫磁區來修復磁區,硬體 RAID 控制器就是這樣做的)。這就是為什麼我會設定日誌監控來掃描「ata 異常」並在發生這種情況時向我發送電子郵件。至少對於傳統 HDD,這可以讓您更快地發現磁碟故障。

如果檔案系統被標記為唯讀,則錯誤會出現在鏈的更高位置,並且 MD 設備也會發現錯誤。你確定sdb上沒有錯嗎?

或者,您確定驅動器根本發生故障嗎?就在我最近,整個 PCI 匯流排可能發生故障。連接到它的所有裝置都開始出現錯誤(所有 ATA 和乙太網路),實際上檔案系統被標記為唯讀,MD 陣列出現故障。但顯然磁碟或 MD 不是問題。

檢查驅動器是否有錯誤:我對 SSD 驅動器上的 SMART 沒有太多經驗,但至少對於 HDD 驅動器,SMART 日誌可能會顯示一些內容;裡面有錯誤日誌,你可以看看智慧參數,也許可以和其他碟進行比較。

如果安裝了 smartmontools,您可以執行以下操作:

smartctl -a /dev/sda

您也可能對。如何對 RAID 陣列進行故障排除

編輯:至於 PCI 總線的事。您的問題似乎確實局限於一個磁碟或控制器。

相關內容