
머신에 가끔 "ATA 버스 오류"가 표시되며 재부팅해야 합니다.
[24028.505239] ata1.00: exception Emask 0x10 SAct 0x0 SErr 0x48d0002 action 0xe frozen
[24028.505249] ata1.00: irq_stat 0x08400040, interface fatal error, connection status changed
[24028.505254] ata1: SError: { RecovComm PHYRdyChg CommWake 10B8B LinkSeq DevExch }
[24028.505258] ata1.00: failed command: FLUSH CACHE EXT
[24028.505266] ata1.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 20
res 50/00:18:50:6b:d9/00:00:eb:00:00/40 Emask 0x10 (ATA bus error)
[24028.505269] ata1.00: status: { DRDY }
[24028.505276] ata1: hard resetting link
[24032.757212] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[24032.757615] ata1.00: both IDENTIFYs aborted, assuming NODEV
[24032.757620] ata1.00: revalidation failed (errno=-2)
재부팅 후 실행하면 smartctl -t short /dev/sda
통과 smartctl -H /dev/sda
했다고 표시됩니다.
에서 smartctl -a /dev/sda
:
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 016 Pre-fail Always - 0
2 Throughput_Performance 0x0005 136 136 054 Pre-fail Offline - 80
3 Spin_Up_Time 0x0007 253 253 024 Pre-fail Always - 176 (Average 237)
4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 233
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 124 124 020 Pre-fail Offline - 33
9 Power_On_Hours 0x0012 091 091 000 Old_age Always - 63994
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 204
192 Power-Off_Retract_Count 0x0032 098 098 000 Old_age Always - 2756
193 Load_Cycle_Count 0x0012 098 098 000 Old_age Always - 2756
194 Temperature_Celsius 0x0002 142 142 000 Old_age Always - 42 (Min/Max 23/52)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0
SMART Error Log Version: 1
No Errors Logged
나는 때때로(25%의 경우) 하드 드라이브가 갑자기 실패하고 SMART에 어떤 문제도 보고되지 않은 것을 알고 있습니다. 하지만 여기에는 이미 오류가 표시됩니다. SMART가 조용하다는 사실은 하드 드라이브가 이러한 오류의 원인이 아니라는 것을 증명합니까?
하드웨어:SuperMicro 마더보드 및 HGST Deskstar NAS 하드 드라이브.
답변1
하드 드라이브와 운영 체제 사이에는 여러 구성 요소가 있으며 그 중 하나에 오류가 발생할 수 있습니다. 일반적으로 표시되는 오류는 하드 드라이브의 오류로 인해 발생합니다.
그러나 SMART에 기록된 오류가 없다는 것은 하드 드라이브 자체가 정상이라는 신호일 가능성이 높습니다. 따라서 체인의 다른 구성 요소 중 하나에 문제가 있을 수 있습니다.
다음은 도움이 될 수 있는 체크리스트입니다.
- 드라이브가 제대로 장착되어 있고 모든 케이블이 드라이브에 완전히 연결되어 있는지 확인하십시오.
- 드라이브가 라이저 보드에 연결된 경우 라이저 보드의 모든 케이블이 제대로 장착되었는지 확인하십시오.
- 관련된 모든 데이터 케이블의 상태가 양호하고 흠집, 꼬임, 심하게 꼬이거나 늘어진 곳이 없는지 확인하세요.
- 데이터 케이블이 마더보드나 디스크 컨트롤러에 잘 꽂혀 있는지 확인하세요.
- 추가 디스크 컨트롤러를 사용하는 경우 마더보드에 제대로 장착되었는지 확인하세요.
- 완전히 장착되지 않은 것이 의심되는 경우(나사로 조여져 있지 않고 제거하기 어려운 경우) 소켓을 제거하고 소켓에 먼지가 없는지 확인한 후 다시 연결하여 완전히 장착되었는지 확인하는 것이 도움이 될 수 있습니다. 앉았다.
모든 항목을 확인한 후에도 오류가 계속 발생하면 위의 구성 요소 중 어떤 구성 요소에 오류가 있는지 확인하기 위해 추가 진단을 수행해야 합니다. 가능하다면 드라이브 위치를 바꾸거나 마더보드 또는 디스크 컨트롤러 포트 간에 케이블을 바꾸면 추가 격리에 도움이 될 수 있습니다. 칩이 불량한 디스크 컨트롤러도 이와 같은 문제를 일으킬 수 있지만, 다른 컨트롤러로 교체해야만 진단이 가능할 수도 있습니다.
드라이브에서 실제 진단을 실행하는 것도 도움이 될 수 있습니다( smartctl -t short
예를 들어, 완료될 때까지 기다렸다가 smartctl -a
완료되었는지 또는 오류가 있는지 확인). 단지 드라이브가 실제로 드라이브가 아닌지 확인하는 것입니다.