
機器偶爾會顯示“ATA總線錯誤”,必須重新啟動:
[24028.505239] ata1.00: exception Emask 0x10 SAct 0x0 SErr 0x48d0002 action 0xe frozen
[24028.505249] ata1.00: irq_stat 0x08400040, interface fatal error, connection status changed
[24028.505254] ata1: SError: { RecovComm PHYRdyChg CommWake 10B8B LinkSeq DevExch }
[24028.505258] ata1.00: failed command: FLUSH CACHE EXT
[24028.505266] ata1.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 20
res 50/00:18:50:6b:d9/00:00:eb:00:00/40 Emask 0x10 (ATA bus error)
[24028.505269] ata1.00: status: { DRDY }
[24028.505276] ata1: hard resetting link
[24032.757212] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[24032.757615] ata1.00: both IDENTIFYs aborted, assuming NODEV
[24032.757620] ata1.00: revalidation failed (errno=-2)
如果重新啟動後,我運行smartctl -t short /dev/sda
,smartctl -H /dev/sda
則表示它通過了。
從smartctl -a /dev/sda
:
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 016 Pre-fail Always - 0
2 Throughput_Performance 0x0005 136 136 054 Pre-fail Offline - 80
3 Spin_Up_Time 0x0007 253 253 024 Pre-fail Always - 176 (Average 237)
4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 233
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 124 124 020 Pre-fail Offline - 33
9 Power_On_Hours 0x0012 091 091 000 Old_age Always - 63994
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 204
192 Power-Off_Retract_Count 0x0032 098 098 000 Old_age Always - 2756
193 Load_Cycle_Count 0x0012 098 098 000 Old_age Always - 2756
194 Temperature_Celsius 0x0002 142 142 000 Old_age Always - 42 (Min/Max 23/52)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0
SMART Error Log Version: 1
No Errors Logged
我知道有時(25% 的情況)硬碟會突然發生故障,而 SMART 中從未報告任何問題。但在這裡,我已經看到了錯誤。 SMART 沉默的事實是否證明硬碟不是這些錯誤的根源?
硬體:SuperMicro 主機板和 HGST Deskstar NAS 硬碟。
答案1
硬碟機和作業系統之間存在多個元件,其中任何一個元件都可能發生故障。通常,您顯示的錯誤是由硬碟中的錯誤引起的。
然而,SMART 中沒有記錄任何錯誤可能表明硬碟本身是健康的。因此,鏈條中的其他組件之一可能有問題。
這是一個可能有幫助的清單:
- 確保驅動器安裝到位並且所有電纜均與驅動器完全接合。
- 如果驅動器插入轉接板上,請確保轉接板上的所有電纜均已正確就位。
- 確保所涉及的所有數據線狀況良好,沒有缺口、扭結、嚴重扭曲和拉伸
- 確保資料線正確固定在主機板或磁碟控制器中
- 如果您使用的是附加磁碟控制器,請確保它在主機板上正確安裝
- 如果懷疑任何東西沒有完全就位(假設它沒有擰緊並且難以拆卸),則可以通過以下方法重新安裝它:將其拆下,檢查插座是否有灰塵,然後將其重新插入,確保其完全固定。了。
檢查完所有這些後,錯誤仍然發生,然後需要進一步的診斷以確定上述哪個組件故障。如果可能,交換磁碟機位置或交換主機板或磁碟控制器連接埠之間的電纜可能有助於進一步隔離。晶片損壞的磁碟控制器也可能導致此類問題,但只能透過更換另一個控制器來診斷此問題。
它還可能有助於在驅動器上運行實際診斷(例如smartctl -t short
,然後等待其完成並檢查smartctl -a
是否已完成或有錯誤),只是為了確保它確實不是驅動器。