如果硬碟導致“匯流排錯誤”,其 SMART 屬性是否應該顯示問題?

如果硬碟導致“匯流排錯誤”,其 SMART 屬性是否應該顯示問題?

機器偶爾會顯示“ATA總線錯誤”,必須重新啟動:

[24028.505239] ata1.00: exception Emask 0x10 SAct 0x0 SErr 0x48d0002 action 0xe frozen
[24028.505249] ata1.00: irq_stat 0x08400040, interface fatal error, connection status changed
[24028.505254] ata1: SError: { RecovComm PHYRdyChg CommWake 10B8B LinkSeq DevExch }
[24028.505258] ata1.00: failed command: FLUSH CACHE EXT
[24028.505266] ata1.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 20
                        res 50/00:18:50:6b:d9/00:00:eb:00:00/40 Emask 0x10 (ATA bus error)
[24028.505269] ata1.00: status: { DRDY }
[24028.505276] ata1: hard resetting link
[24032.757212] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[24032.757615] ata1.00: both IDENTIFYs aborted, assuming NODEV
[24032.757620] ata1.00: revalidation failed (errno=-2)

如果重新啟動後,我運行smartctl -t short /dev/sdasmartctl -H /dev/sda則表示它通過了。

smartctl -a /dev/sda

Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   136   136   054    Pre-fail  Offline      -       80
  3 Spin_Up_Time            0x0007   253   253   024    Pre-fail  Always       -       176 (Average 237)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       233
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   124   124   020    Pre-fail  Offline      -       33
  9 Power_On_Hours          0x0012   091   091   000    Old_age   Always       -       63994
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       204
192 Power-Off_Retract_Count 0x0032   098   098   000    Old_age   Always       -       2756
193 Load_Cycle_Count        0x0012   098   098   000    Old_age   Always       -       2756
194 Temperature_Celsius     0x0002   142   142   000    Old_age   Always       -       42 (Min/Max 23/52)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

我知道有時(25% 的情況)硬碟會突然發生故障,而 SMART 中從未報告任何問題。但在這裡,我已經看到了錯誤。 SMART 沉默的事實是否證明硬碟不是這些錯誤的根源?

硬體:SuperMicro 主機板和 HGST Deskstar NAS 硬碟。

答案1

硬碟機和作業系統之間存在多個元件,其中任何一個元件都可能發生故障。通常,您顯示的錯誤是由硬碟中的錯誤引起的。

然而,SMART 中沒有記錄任何錯誤可能表明硬碟本身是健康的。因此,鏈條中的其他組件之一可能有問題。

這是一個可能有幫助的清單:

  • 確保驅動器安裝到位並且所有電纜均與驅動器完全接合。
  • 如果驅動器插入轉接板上,請確保轉接板上的所有電纜均已正確就位。
  • 確保所涉及的所有數據線狀況良好,沒有缺口、扭結、嚴重扭曲和拉伸
  • 確保資料線正確固定在主機板或磁碟控制器中
  • 如果您使用的是附加磁碟控制器,請確保它在主機板上正確安裝
  • 如果懷疑任何東西沒有完全就位(假設它沒有擰緊並且難以拆卸),則可以通過以下方法重新安裝它:將其拆下,檢查插座是否有灰塵,然後將其重新插入,確保其完全固定。了。

檢查完所有這些後,錯誤仍然發生,然後需要進一步的診斷以確定上述哪個組件故障。如果可能,交換磁碟機位置或交換主機板或磁碟控制器連接埠之間的電纜可能有助於進一步隔離。晶片損壞的磁碟控制器也可能導致此類問題,但只能透過更換另一個控制器來診斷此問題。

它還可能有助於在驅動器上運行實際診斷(例如smartctl -t short,然後等待其完成並檢查smartctl -a是否已完成或有錯誤),只是為了確保它確實不是驅動器。

相關內容