HDD 및 SSD Linux: 하드 재설정 링크

HDD 및 SSD Linux: 하드 재설정 링크

내 현재 스토리지 설정은 내 Linux 상자에 있는 두 개의 기존 HDD와 두 개의 SSD로 구성되어 있으며, 각 두 개는 luks를 통해 암호화되는 자체 RAID 1 어레이에 있습니다. 구체적인 질문이라기보다 일종의 이야기를 하게 됐다.

1년 넘게 일부 드라이브의 커널 로그에 무작위로 "하드 재설정 링크" 오류가 발생했습니다. 문제가 있는 드라이브를 RMA하면 새 드라이브로 인해 문제가 중단됩니다. 몇 달 후, 결국 무작위로 보이는 동일한 오류가 다시 발생하기 시작했습니다. 해당 드라이브는 RAID에서 오류가 발생한 것으로 표시되어 더 이상 에 표시되지 않습니다 fdisk -l. 컴퓨터를 재부팅하면 드라이브가 다시 나타나고 어레이에 다시 추가하면 재구축됩니다. 조만간 해당 문제가 다시 발생하게 되는데, 대개 몇 시간 후에 발생합니다.

약 6개월 전, 저는 기존 드라이브만큼 고장률이 높지 않기를 바라면서 기존 HDD 중 2개를 SSD로 교체했습니다. 그러나 지난 며칠 동안 새 SSD 중 하나와 기존 드라이브 중 하나에 문제가 발생하기 시작했습니다.

패턴이 나타나기 시작했어요. 새 드라이브를 구입했는데 몇 달 후에 문제가 발생하기 시작했습니다. 항상 HDD의 고장률이 높아서 그런 줄 알았는데, 지금은 SSD에서 그런 일이 일어나서 드라이브의 잘못은 아닌 것 같아요. 또 무엇이 문제가 될까요? 문제가 발생하기 시작한 이후로 여러 OS를 설치했기 때문에 소프트웨어 문제를 배제하고 싶습니다. 그러면 SATA 케이블이나 마더보드가 남습니다. 디스크 암호화가 드라이브에 너무 많은 스트레스를 가할 수 있습니까? 더 많은 정보를 확인하기 위해 제가 할 수 있는 일이 있나요? 언제나 감사드립니다.

다음은 dmesg몇 달 전에 동일한 문제가 발생했을 때 질문한 문제의 결과입니다.

[43161.734107] ata3: ATA_REG 0x41 ERR_REG 0x84
[43161.734110] ata3: tag : dhfis dmafis sdbfis sactive
[43161.734113] ata3: tag 0x0: 1 1 0 1  
[43161.734123] ata3.00: exception Emask 0x1 SAct 0x1 SErr 0x180000 action 0x6 frozen
[43161.734127] ata3.00: Ata error. fis:0x21
[43161.734130] ata3: SError: { 10B8B Dispar }
[43161.734134] ata3.00: failed command: READ FPDMA QUEUED
[43161.734142] ata3.00: cmd 60/08:00:a8:03:00/00:00:00:00:00/40 tag 0 ncq 4096 in
[43161.734144]          res 41/84:04:a8:03:00/84:00:00:00:00/40 Emask 0x10 (ATA bus error)
[43161.734148] ata3.00: status: { DRDY ERR }
[43161.734150] ata3.00: error: { ICRC ABRT }
[43161.734155] ata3: hard resetting link
[43161.734158] ata3: nv: skipping hardreset on occupied port
[43162.220095] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43162.260202] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43162.260206] ata3.00: revalidation failed (errno=-19)
[43162.260211] ata3.00: limiting speed to UDMA/133:PIO2
[43167.220123] ata3: hard resetting link
[43167.220127] ata3: nv: skipping hardreset on occupied port
[43167.710060] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43167.750228] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43167.750232] ata3.00: revalidation failed (errno=-19)
[43167.750236] ata3.00: disabled
[43172.710100] ata3: hard resetting link
[43173.620110] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43173.640455] ata3.00: failed to IDENTIFY (INIT_DEV_PARAMS failed, err_mask=0x80)
[43178.620116] ata3: hard resetting link
[43179.530113] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43179.550748] ata3.00: ATA-8: WDC WD2002FAEX-007BA0, 05.01D05, max UDMA/133
[43179.550753] ata3.00: 3907029168 sectors, multi 16: LBA48 NCQ (depth 31/32)
[43179.570208] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43179.570213] ata3.00: revalidation failed (errno=-19)
[43179.570220] ata3: limiting SATA link speed to 1.5 Gbps
[43179.570224] ata3.00: limiting speed to UDMA/133:PIO3
[43184.530066] ata3: hard resetting link
[43184.530070] ata3: nv: skipping hardreset on occupied port
[43185.020091] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43185.060949] ata3.00: configured for UDMA/133
[43185.060969] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[43185.060974] sd 2:0:0:0: [sdd]  Sense Key : Aborted Command [current] [descriptor]
[43185.060980] Descriptor sense data with sense descriptors (in hex):
[43185.060983]         72 0b 47 00 00 00 00 0c 00 0a 80 00 00 00 00 00 
[43185.060995]         00 00 03 a8 
[43185.061000] sd 2:0:0:0: [sdd]  Add. Sense: Scsi parity error
[43185.061006] sd 2:0:0:0: [sdd] CDB: Read(10): 28 00 00 00 03 a8 00 00 08 00
[43185.061017] end_request: I/O error, dev sdd, sector 936
[43185.061023] Buffer I/O error on device sdd, logical block 117
[43185.061044] sd 2:0:0:0: rejecting I/O to offline device
[43185.061048] sd 2:0:0:0: killing request
[43185.061062] ata3: EH complete
[43185.061075] sd 2:0:0:0: rejecting I/O to offline device
[43185.061123] sd 2:0:0:0: rejecting I/O to offline device
[43185.061134] sd 2:0:0:0: rejecting I/O to offline device
[43185.061140] sd 2:0:0:0: rejecting I/O to offline device
[43185.061145] sd 2:0:0:0: [sdd] READ CAPACITY(16) failed
[43185.061147] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
[43185.061152] sd 2:0:0:0: [sdd] Sense not available.
[43185.061155] sd 2:0:0:0: rejecting I/O to offline device
[43185.061166] sd 2:0:0:0: rejecting I/O to offline device
[43185.061175] sd 2:0:0:0: rejecting I/O to offline device
[43185.061185] sd 2:0:0:0: rejecting I/O to offline device
[43185.061193] sd 2:0:0:0: rejecting I/O to offline device
[43185.061198] sd 2:0:0:0: [sdd] READ CAPACITY failed
[43185.061202] sd 2:0:0:0: rejecting I/O to offline device
[43185.061209] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
[43185.061215] sd 2:0:0:0: [sdd] Sense not available.
[43185.061226] sd 2:0:0:0: rejecting I/O to offline device
[43185.061235] sd 2:0:0:0: rejecting I/O to offline device
[43185.061245] sd 2:0:0:0: rejecting I/O to offline device
[43185.061254] sd 2:0:0:0: rejecting I/O to offline device
[43185.061263] sd 2:0:0:0: rejecting I/O to offline device
[43185.061274] sd 2:0:0:0: rejecting I/O to offline device
[43185.061280] sd 2:0:0:0: [sdd] Asking for cache data failed
[43185.061283] sd 2:0:0:0: [sdd] Assuming drive cache: write through
[43185.061289] sdd: detected capacity change from 2000398934016 to 0
[43185.061610] ata3.00: detaching (SCSI 2:0:0:0)
[43185.062444] sd 2:0:0:0: [sdd] Stopping disk
[43249.120042] ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[43249.120046] ata4.00: failed command: FLUSH CACHE EXT
[43249.120051] ata4.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
[43249.120052]          res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[43249.120054] ata4.00: status: { DRDY }
[43249.120059] ata4: hard resetting link
[43249.120060] ata4: nv: skipping hardreset on occupied port
[43249.610042] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43249.650323] ata4.00: configured for UDMA/133
[43249.650326] ata4.00: retrying FLUSH 0xea Emask 0x4
[43249.650452] ata4.00: device reported invalid CHS sector 0
[43249.650458] ata4: EH complete

답변1

여기에 질문이 있습니다. 제 생각에는 (제가 올바르게 이해했다면) 이 오류의 원인을 파악하는 프로세스는 무엇입니까?

저는 네트워크 보안 엔지니어입니다. 그러니 이 글을 타이핑하는 동안 제가 울고 있다는 것을 이해해 주세요. 이것을 암호화 문제로 제거하십시오. 드라이브의 암호를 해독하고 여전히 문제가 있는지 확인하십시오. 단점은 암호를 해독한 후 몇 달 동안 사용해야 한다는 것입니다.

케이블은 간단한 테스트입니다(그리고 먼저 시작해야 합니다). 교체해 보세요. 하지만 케이스 내부에 네온 불빛이 없으면 그게 문제라고 믿기 어렵습니다.

그것은 mobo를 떠난다. 나머지 두 개가 아니라면...

내 문제 해결에 동의하지 않는 사람이 있을 것이라고 확신합니다. 케이블을 변경하는 데 비용이 많이 들지 않으며 암호화를 일시적으로 비활성화하는 것은 귀하가 수락할지 여부를 결정할 수 있는 보안 위험입니다.

답변2

SATA 링크에 오류가 많은 것 같습니다. 결과적으로 호스트는 링크를 통해 안정적으로 명령을 받을 수 없으며, 명령을 받을 때 반환된 데이터가 손상되는 경우가 있습니다.

속도가 제한되어 있거나 예상 드라이브 식별자가 수신되지 않았다는 메시지가 표시됩니다. 또한 SATA의 하드웨어 수준에서 발생하는 상황을 반드시 반영하지 않는 드라이버의 여러 계층에서 혼란스러운 메시지가 표시됩니다. 예를 들어, "UDMA/133:PIO3으로 속도 제한"은 병렬 ATA 드라이브에만 엄격하게 적용됩니다(단지 드라이버가 오류가 해결되었는지 확인하기 위해 더 느린 인터페이스 속도를 시도한다는 의미임). 그러나 오류 메시지는 가장 낮은 인터페이스 속도를 분명히 나타냅니다. 실제로 하드웨어를 다루는 수준에서는 그것이 SATA 드라이브와 통신하고 있다는 것을 이해합니다.

SATA 케이블일 수도 있다는 생각은 좋은 것입니다. 교체해 보고 SATA 3.0Gb/초("SATA 2" 또는 "SATA II"라고도 함) 등급인지 확인하세요. 나는 당신의 드라이브가 문제라고 생각하지 않습니다. 드라이브를 교체한 후 오류가 표시되기까지 몇 달이 걸리는 이유는 무엇입니까? 어쩌면 케이블이 느슨해져서 드라이브를 교체하면 케이블이 다시 장착될 수도 있습니다. 아니면 그냥 우연일 수도 있습니다.

관련 정보