하드 드라이브에서 "버스 오류"가 발생한 경우 해당 SMART 속성에 문제가 표시되어야 합니까?

하드 드라이브에서 "버스 오류"가 발생한 경우 해당 SMART 속성에 문제가 표시되어야 합니까?

머신에 가끔 "ATA 버스 오류"가 표시되며 재부팅해야 합니다.

[24028.505239] ata1.00: exception Emask 0x10 SAct 0x0 SErr 0x48d0002 action 0xe frozen
[24028.505249] ata1.00: irq_stat 0x08400040, interface fatal error, connection status changed
[24028.505254] ata1: SError: { RecovComm PHYRdyChg CommWake 10B8B LinkSeq DevExch }
[24028.505258] ata1.00: failed command: FLUSH CACHE EXT
[24028.505266] ata1.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 20
                        res 50/00:18:50:6b:d9/00:00:eb:00:00/40 Emask 0x10 (ATA bus error)
[24028.505269] ata1.00: status: { DRDY }
[24028.505276] ata1: hard resetting link
[24032.757212] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[24032.757615] ata1.00: both IDENTIFYs aborted, assuming NODEV
[24032.757620] ata1.00: revalidation failed (errno=-2)

재부팅 후 실행하면 smartctl -t short /dev/sda통과 smartctl -H /dev/sda했다고 표시됩니다.

에서 smartctl -a /dev/sda:

Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   136   136   054    Pre-fail  Offline      -       80
  3 Spin_Up_Time            0x0007   253   253   024    Pre-fail  Always       -       176 (Average 237)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       233
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   124   124   020    Pre-fail  Offline      -       33
  9 Power_On_Hours          0x0012   091   091   000    Old_age   Always       -       63994
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       204
192 Power-Off_Retract_Count 0x0032   098   098   000    Old_age   Always       -       2756
193 Load_Cycle_Count        0x0012   098   098   000    Old_age   Always       -       2756
194 Temperature_Celsius     0x0002   142   142   000    Old_age   Always       -       42 (Min/Max 23/52)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

나는 때때로(25%의 경우) 하드 드라이브가 갑자기 실패하고 SMART에 어떤 문제도 보고되지 않은 것을 알고 있습니다. 하지만 여기에는 이미 오류가 표시됩니다. SMART가 조용하다는 사실은 하드 드라이브가 이러한 오류의 원인이 아니라는 것을 증명합니까?

하드웨어:SuperMicro 마더보드 및 HGST Deskstar NAS 하드 드라이브.

답변1

하드 드라이브와 운영 체제 사이에는 여러 구성 요소가 있으며 그 중 하나에 오류가 발생할 수 있습니다. 일반적으로 표시되는 오류는 하드 드라이브의 오류로 인해 발생합니다.

그러나 SMART에 기록된 오류가 없다는 것은 하드 드라이브 자체가 정상이라는 신호일 가능성이 높습니다. 따라서 체인의 다른 구성 요소 중 하나에 문제가 있을 수 있습니다.

다음은 도움이 될 수 있는 체크리스트입니다.

  • 드라이브가 제대로 장착되어 있고 모든 케이블이 드라이브에 완전히 연결되어 있는지 확인하십시오.
  • 드라이브가 라이저 보드에 연결된 경우 라이저 보드의 모든 케이블이 제대로 장착되었는지 확인하십시오.
  • 관련된 모든 데이터 케이블의 상태가 양호하고 흠집, 꼬임, 심하게 꼬이거나 늘어진 곳이 없는지 확인하세요.
  • 데이터 케이블이 마더보드나 디스크 컨트롤러에 잘 꽂혀 있는지 확인하세요.
  • 추가 디스크 컨트롤러를 사용하는 경우 마더보드에 제대로 장착되었는지 확인하세요.
  • 완전히 장착되지 않은 것이 의심되는 경우(나사로 조여져 있지 않고 제거하기 어려운 경우) 소켓을 제거하고 소켓에 먼지가 없는지 확인한 후 다시 연결하여 완전히 장착되었는지 확인하는 것이 도움이 될 수 있습니다. 앉았다.

모든 항목을 확인한 후에도 오류가 계속 발생하면 위의 구성 요소 중 어떤 구성 요소에 오류가 있는지 확인하기 위해 추가 진단을 수행해야 합니다. 가능하다면 드라이브 위치를 바꾸거나 마더보드 또는 디스크 컨트롤러 포트 간에 케이블을 바꾸면 추가 격리에 도움이 될 수 있습니다. 칩이 불량한 디스크 컨트롤러도 이와 같은 문제를 일으킬 수 있지만, 다른 컨트롤러로 교체해야만 진단이 가능할 수도 있습니다.

드라이브에서 실제 진단을 실행하는 것도 도움이 될 수 있습니다( smartctl -t short예를 들어, 완료될 때까지 기다렸다가 smartctl -a완료되었는지 또는 오류가 있는지 확인). 단지 드라이브가 실제로 드라이브가 아닌지 확인하는 것입니다.

관련 정보