SATA HDD 오류

SATA HDD 오류

WDC WD3202ABYS가 설치된 서버가 하나 있습니다. 가상 호스트가 100개 있습니다. 서버는 약 5년 동안 작동했으며 이 기간 동안 4개의 디스크를 변경했습니다. 모두 같은 이유입니다: SATA 오류. 마지막 하나:

ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:60:57:7b:b6/00:01:06:00:00/e0 tag 0 dma 180224 out
         res 51/10:60:57:7b:b6/10:01:06:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
    Add. Sense: Recorded entity not found

Descriptor sense data with sense descriptors (in hex):
        72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00 
        06 b6 7b 57 
end_request: I/O error, dev sdb, sector 112622423
Buffer I/O error on device dm-8, logical block 14077747
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077748
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077749
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077750
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077751
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077756
lost page write due to I/O error on dm-8
ata2: EH complete
SCSI device sdb: 625142448 512-byte hdwr sectors (320073 MB)
sdb: Write Protect is off
sdb: Mode Sense: 00 3a 00 00
SCSI device sdb: drive cache: write back
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:90:17:30:b7/00:02:08:00:00/e0 tag 0 dma 335872 out
         res 51/10:90:17:30:b7/10:02:08:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
    Add. Sense: Recorded entity not found

Descriptor sense data with sense descriptors (in hex):
        72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00 
        08 b7 30 17 
end_request: I/O error, dev sdb, sector 146223127
printk: 34 messages suppressed.
Buffer I/O error on device dm-8, logical block 18277835

소프트웨어 오류인거 같은데..

하지만 그 후 얼마 지나지 않아(아마 fsck를 시작했을 때) 다음과 같은 오류가 발생했습니다.

EXT3-fs error (device dm-8): ext3_put_super: Couldn't clean up the journal
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/01:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x1 (device error)
ata2.00: status: { DRDY ERR }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)

이 오류가 "소프트웨어"일 수도 있습니까? ... 내 말은 이 HDD는 9000시간 밖에 되지 않았다는 뜻입니다... HDD에 추가 로드가 없는 경우... 온도는 섭씨 29도입니다... HDD를 교체해야 합니까? 아니면 디스크가 충분한지 확인하세요.

EXT3-fs error (device dm-8): ext3_put_super: Couldn't clean up the journal
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/01:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x1 (device error)
ata2.00: status: { DRDY ERR }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)

이유를 알아내는 방법?


다음은 smart의 오류입니다.

Error 36 occurred at disk power-on lifetime: 9160 hours (381 days + 16 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 22 09 80 e3  Error: UNC at LBA = 0x03800922 = 58722594

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 1f 09 80 03 0a  47d+13:38:13.534  READ DMA
  ec 00 00 00 00 00 00 0a  47d+13:38:13.530  IDENTIFY DEVICE
  ef 03 46 00 00 00 00 0a  47d+13:38:13.528  SET FEATURES [Set transfer mode]

좋아요. 다음 시나리오가 가능합니까? 1. 디스크는 fsck 없이 9000에 있었습니다. 2. 몇 가지 오류가 있습니다. 3. dmesg에서 다음과 같은 오류가 시작되었습니다.

ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:60:57:7b:b6/00:01:06:00:00/e0 tag 0 dma 180224 out
         res 51/10:60:57:7b:b6/10:01:06:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
    Add. Sense: Recorded entity not found
  1. 그리고 inode 오류 등과 같은 오류...
  2. 이 파티션을 마운트 해제하려고 했는데 hdd에서 해당 inode를 찾을 수 없다는 등의 오류가 발생했습니다...?

그렇다면.. 이해가 안가네요. 매년 디스크를 교체해야 합니까? 이 오류를 방지하기 위해서인가요? 어떤 사람도 같은 문제가 있습니까? 디스크 1개 뿐만 아니라..

답변1

내 경험에 따르면 귀하가 보고 있는 오류는 실제로 소프트웨어에 반영된 하드웨어 오류입니다. 'I/O 오류로 인해 페이지 쓰기 손실' 메시지는 불량 하드 드라이브에서 본 메시지이며 fsck를 시도할 때 설명하는 방식과 유사하게 작동합니다. 이는 거의 확실히 실제 하드웨어 결함입니다.

smartctl의 출력을 확인하여 문제가 될 수 있다고 말하는 내용을 확인해야 합니다.

smartctl --attributes /dev/sdb

다음과 유사한 출력이 제공됩니다.

=== 스마트 데이터 읽기 섹션 시작 ===
SMART 속성 데이터 구조 개정 번호: 16
임계값이 있는 공급업체별 SMART 속성:
ID 번호 ATTRIBUTE_NAME 플래그 값 RAW_VALUE일 때 최악의 임계값 유형이 업데이트되었습니다.
  1 Raw_Read_Error_Rate 0x000f 200 200 051 사전 실패 항상 - 0
  3 Spin_Up_Time 0x0003 212 186 021 사전 실패 항상 - 4358
  4 Start_Stop_Count 0x0032 100 100 000 Old_age 항상 - 97
  5 Reallocation_Sector_Ct 0x0033 200 200 140 사전 실패 항상 - 0
  7 Seek_Error_Rate 0x000f 200 200 051 사전 실패 항상 - 0
  9 Power_On_Hours 0x0032 066 066 000 Old_age 항상 - 25420
 10 Spin_Retry_Count 0x0013 100 253 051 사전 실패 항상 - 0
 11 Calibration_Retry_Count 0x0013 100 253 051 사전 실패 항상 - 0
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age 항상 - 86
194 온도_섭씨 0x0022 104 001 000 Old_age 항상 - 46
196 Realowned_Event_Count 0x0032 200 200 000 Old_age 항상 - 0
197 Current_Pending_Sector 0x0012 200 200 000 Old_age 항상 - 0
198 오프라인_수정 불가능 0x0010 200 200 000 Old_age 오프라인 - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age 항상 - 0
200 Multi_Zone_Error_Rate 0x0009 200 200 051 오프라인 사전 실패 - 0

출력은 난해할 수 있지만 제가 주목해야 할 출력은 Realwhich_Sector_Ct입니다. 이는 알려진 불량 섹터에 대한 HD의 내용을 알려주기 때문입니다. 'smartctl -a' 명령은 더 많은 데이터를 제공합니다. 내가 얼마 전에 가지고 있던 불량 HD에서 해당 출력의 맨 아래에는 몇 가지 항목이 있는 'SMART 오류 로그'가 있습니다.

답변2

수정할 수 없는 읽기 오류가 발생했습니다.

Error: UNC at LBA = 0x03800922 = 58722594

이제 해당 블록에 있던 데이터가 손실됩니다.

다음을 수행해야 합니다.

  • 우선 거울을 사용하세요. 엔터프라이즈 디스크는 실제로 미러 뒤에 있도록 설계되었으며 데이터를 얻기 위해 열심히 노력하는 것보다 읽기 오류를 반환하는 것이 좋습니다.
  • 백업에서 손실된 데이터를 복구

RAID를 사용하지 않을 이유가 없습니다(특히 클라이언트용 웹 사이트를 호스팅하는 경우!). OS는 그다지 크지 않으므로 2디스크 시스템에서는 전용 디스크가 필요하지 않습니다.

답변3

RAID 컨트롤러를 사용하고 있습니까? 어떤 종류의 컨트롤러를 사용하고 있나요?

실망스러우면서도 깨달은 것 중 하나는 HDD 제조업체가 SATA 시장에 도입하고 있는 세분화가 증가하고 있다는 것입니다. 이제 '소규모 기업/RAID 용도' 및 '단일/데스크톱 용도'용 드라이브가 있습니다. SAS는 '하이엔드 엔터프라이즈' 시장을 노리고 있는 것 같습니다.

귀하의 모델 번호는 RAID 설정용으로 설계된 WD의 RE3 드라이브 시리즈입니다. 이는 무엇보다도 오류를 복구하려고 할 때 오랜 시간 동안 반복해서 시도하는 대신 드라이브가 더 빨리(즉, 3-4초 이내) '포기'한다는 것을 의미한다고 들었습니다. 더 빨리 포기하면 RAID 컨트롤러에 오류가 보고되므로 다른 드라이브를 사용하여 복구할 수 있습니다. 대신 드라이브가 더 오래 기다리면 RAID 컨트롤러가 응답하지 않는다는 이유로 드라이브를 어레이에서 쫓아냅니다.

실패는아직드물고 매년 한 번도 아닙니다. 아마도 설정의 또 다른 측면일까요? (한때 SATA 케이블 때문에 답답한 싸움을 한 적이 있는데, 이제는 다른 케이블에 대한 경고로 내 문 위에 장착되어 있습니다...)

답변4

나는 Western Digital 드라이브에 대해 매우 나쁜 경험을 했습니다. 내 드라이브의 절반 이상이 완전한 오류 또는 불량 섹터로 인해 보증 기간에 따라 교체되어야 했습니다.

약 8년 동안 WD 드라이브만 구입한 후에는 더 이상 드라이브에 돈을 쓰고 싶지 않습니다. 어떤 WD 드라이브를 신뢰할 수 있는지 모르겠습니다. 지금까지 내 경험에 따르면 "그들 중 누구도"가 아닙니다.

원래 드라이브를 4번 교체했습니다. 드라이브 5개를 모두 동시에 구입하셨나요? 실패했을 때 각각 교체하기 위해 새로 구입하시겠습니까? 교체를 위해 보증이 적용되는 드라이브를 반환하시겠습니까? 5개의 드라이브를 언제, 어떻게 구입했으며, 어떤 모델이었나? 내 경험상 WD 드라이브 배치는 불량하고 동시에 실패하는 경우가 많습니다.

관련 정보