SATA 硬碟錯誤

SATA 硬碟錯誤

我有一台帶有 WDC WD3202ABYS 的伺服器...有 100 個虛擬主機。伺服器工作了大約 5 年,在這段時間裡我更換了 4 個磁碟。都有同樣的原因:SATA 錯誤。最後一個:

ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:60:57:7b:b6/00:01:06:00:00/e0 tag 0 dma 180224 out
         res 51/10:60:57:7b:b6/10:01:06:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
    Add. Sense: Recorded entity not found

Descriptor sense data with sense descriptors (in hex):
        72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00 
        06 b6 7b 57 
end_request: I/O error, dev sdb, sector 112622423
Buffer I/O error on device dm-8, logical block 14077747
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077748
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077749
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077750
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077751
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077756
lost page write due to I/O error on dm-8
ata2: EH complete
SCSI device sdb: 625142448 512-byte hdwr sectors (320073 MB)
sdb: Write Protect is off
sdb: Mode Sense: 00 3a 00 00
SCSI device sdb: drive cache: write back
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:90:17:30:b7/00:02:08:00:00/e0 tag 0 dma 335872 out
         res 51/10:90:17:30:b7/10:02:08:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
    Add. Sense: Recorded entity not found

Descriptor sense data with sense descriptors (in hex):
        72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00 
        08 b7 30 17 
end_request: I/O error, dev sdb, sector 146223127
printk: 34 messages suppressed.
Buffer I/O error on device dm-8, logical block 18277835

看起來像是某個軟體錯誤...

但在那之後不久(也許當我開始 fsck 時)出現以下錯誤:

EXT3-fs error (device dm-8): ext3_put_super: Couldn't clean up the journal
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/01:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x1 (device error)
ata2.00: status: { DRDY ERR }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)

這個錯誤有可能也是「軟體」...我的意思是這個硬碟只有 9000 小時的歷史...硬碟上沒有額外的負載...溫度為 29 攝氏度...我需要更換硬碟嗎?或檢查磁碟是否足夠?

EXT3-fs error (device dm-8): ext3_put_super: Couldn't clean up the journal
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/01:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x1 (device error)
ata2.00: status: { DRDY ERR }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)

如何找出原因?


以下是 smart 的錯誤:

Error 36 occurred at disk power-on lifetime: 9160 hours (381 days + 16 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 22 09 80 e3  Error: UNC at LBA = 0x03800922 = 58722594

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 1f 09 80 03 0a  47d+13:38:13.534  READ DMA
  ec 00 00 00 00 00 00 0a  47d+13:38:13.530  IDENTIFY DEVICE
  ef 03 46 00 00 00 00 0a  47d+13:38:13.528  SET FEATURES [Set transfer mode]

好的。是否可能出現以下情況: 1. 磁碟位於 9000 上,沒有進行 fsck。 2. 有一些錯誤 3. 在 dmesg 中出現以下錯誤:

ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:60:57:7b:b6/00:01:06:00:00/e0 tag 0 dma 180224 out
         res 51/10:60:57:7b:b6/10:01:06:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
    Add. Sense: Recorded entity not found
  1. 還有 inode 錯誤等錯誤...
  2. 我嘗試卸載這個分區,但錯誤來自硬碟,就像它找不到這樣的索引節點等等...?

如果是這樣..我不懂。我需要每年更換磁碟嗎?只是為了防止這個錯誤?有人有同樣的問題嗎?不僅用一張磁碟...

答案1

根據我的經驗,您看到的錯誤實際上是軟體中反映的硬體錯誤。我在壞硬碟上看到「由於 I/O 錯誤導致頁面寫入遺失」訊息,其行為與您在嘗試對其進行 fsck 時所描述的方式類似。這幾乎肯定是真正的硬體故障。

您應該檢查 smartctl 的輸出,看看它說的可能是問題。

smartctl --attributes /dev/sdb

它會給你類似這樣的輸出:

=== 讀取智慧資料部分的開始 ===
SMART 屬性資料結構修訂號:16
具有閾值的供應商特定 SMART 屬性:
ID# ATTRIBUTE_NAME 標誌值 最差閾值類型已更新 WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f 200 200 051 預失敗始終 - 0
  3 Spin_Up_Time 0x0003 212 186 021 始終為故障前 - 4358
  4 Start_Stop_Count 0x0032 100 100 000 Old_age 總是 - 97
  5 Reallocated_Sector_Ct 0x0033 200 200 140 故障前始終 - 0
  7 Seek_Error_Rate 0x000f 200 200 051 預失敗始終 - 0
  9 Power_On_Hours 0x0032 066 066 000 Old_age 總是 - 25420
 10 Spin_Retry_Count 0x0013 100 253 051 預失敗始終 - 0
 11 Calibration_Retry_Count 0x0013 100 253 051 預失敗始終 - 0
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age 總是 - 86
194Temperature_Celsius 0x0022 104 001 000 Old_age 總是 - 46
196 Realated_Event_Count 0x0032 200 200 000 Old_age 總是 - 0
197 Current_Pending_Sector 0x0012 200 200 000 Old_age 總是 - 0
198 Offline_Un Correctable 0x0010 200 200 000 Old_age 離線 - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age 總是 - 0
200 Multi_Zone_Error_Rate 0x0009 200 200 051 故障前離線 - 0

輸出可能很神秘,但我會密切關注的是Realulated_Sector_Ct,因為它告訴您硬碟對已知壞扇區的資訊。命令“smartctl -a”將提供更多數據。在我不久前遇到的壞高清上,該輸出的底部是“智慧錯誤日誌”,其中有一些條目。

答案2

您遇到了無法修正的讀取錯誤。

Error: UNC at LBA = 0x03800922 = 58722594

該區塊上的資料現已遺失。

你應該:

  • 首先要使用鏡子。企業磁碟實際上旨在位於鏡像後面,它們寧願返回讀取錯誤也不願努力獲取資料。
  • 從備份中恢復遺失的數據

您沒有理由不使用 RAID(特別是如果您為客戶託管網站!) - 作業系統不是那麼大,您不需要在 2 磁碟系統上為其提供專用磁碟。

答案3

您使用的是 RAID 控制器嗎?您使用哪種控制器?

其中一件事(既令人沮喪又具有啟發性)是 HDD 製造商正在將日益細分的硬碟引入 SATA 市場。現在有用於「小型企業/RAID 使用」和「單/桌面使用」的磁碟機。 SAS似乎被推向「高端企業」市場。

您的型號是 WD RE3 系列硬碟,專為 RAID 設定而設計。有人告訴我,這意味著在嘗試修復錯誤時,驅動器會更快地「放棄」(即在 3-4 秒內),而不是在更長的時間內一遍又一遍地嘗試。儘早放棄會將錯誤報告給 RAID 控制器,以便它可以使用另一個磁碟機來復原。相反,如果驅動器等待時間較長,RAID 控制器會因驅動器無響應而將該驅動器從陣列中踢出。

失敗應該仍然很少見,而且不是每年一次。也許這是你設置的另一個方面? (我曾經與 SATA 電纜進行過一次令人沮喪的鬥爭,現在它被安裝在我的門上,作為對其他電纜的警告...)

答案4

我在使用西部數據硬碟時有過非常糟糕的經歷。由於完全故障或壞扇區,我一半以上的驅動器在保固期內必須更換。

在只購買 WD 硬碟大約 8 年之後,我不再想在它們上花任何錢。我不知道哪個 WD 硬碟值得信賴;到目前為止,我的經驗表明「沒有一個」。

您已經更換過4次原廠驅動器;您是否同時購買了所有五個驅動器?當故障時,需要購買新的來更換嗎?在保固期內退回驅動器以進行更換?您是如何以及何時獲得這五個驅動器的?根據我的經驗,批量的 WD 硬碟經常會同時出現故障和故障。

相關內容