3Ware의 tw_cli에서 "DEGRADED" 디스크와 "ECC-ERROR"는 무엇을 의미합니까?

3Ware의 tw_cli에서 "DEGRADED" 디스크와 "ECC-ERROR"는 무엇을 의미합니까?

3ware 9650SE-16ML 카드에 슬픈 RAID 어레이가 있습니다. 내가 말할 수 없는 것은 내가 방금 이중 디스크 오류를 겪었는지(안타깝네요!) 아니면 내가 이 글을 잘못 읽고 있는지입니다. 관련 출력은 /c0 show all다음과 같습니다.

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     DEGRADED         u0     931.51 GB   1953525168    5QJ07MAH            
p1     ECC-ERROR        u0     931.51 GB   1953525168    5QJ0DCW9            
p2     OK               u0     931.51 GB   1953525168    5QJ0DW9C            
p3     OK               u0     931.51 GB   1953525168    5QJ0CKXJ            

그리고 실패는 (에서 show alarms):

Ctl  Date                        Severity  Alarm Message
------------------------------------------------------------------------------
c0   [Sun Nov 20 07:47:23 2011]  INFO      Rebuild started: unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Drive ECC error reported: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Source drive error occurred: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Rebuild failed: unit=0
c0   [Sun Nov 20 08:20:12 2011]  INFO      Rebuild paused: unit=0

생각하다p0이 실패했고 p1에 ECC 오류가 발생했습니다(즉, 내 데이터가 사라졌습니다). 하지만... 어쩌면 아닐지도? 97% 재구축 상태를 유지하지만 이 오류를 지나칠 수 없습니다.

제가 아는 한, 이전 관리자가 정기 확인을 꺼서 이 상태에 이르렀습니다. 이것은 대부분의 사람들이 3Ware RAID에 대해 걱정해야 할 사항이 아닙니다!

업데이트

며칠 동안 두드린 후 IgnoreECC 비트를 수행하고 다시 빌드했지만 데이터가 엉망이었습니다. 버머.

답변1

ECC 오류는 드라이브에 읽을 수 없는 섹터가 하나 이상 있음을 의미합니다. 그러나 운이 좋다면 해당 섹터가 해당 볼륨에 있는 파일 시스템에서 실제로 사용되지 않을 수 있으므로 이 상태에서도 어레이에서 데이터를 복사할 수 있습니다.

재구축 중에 ECC 오류를 무시하는 몇 가지 옵션도 있습니다.

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

그러나 이러한 옵션을 사용하면 불량 섹터의 영향을 받은 RAID 스트라이프가 손상된다는 의미입니다(이 경우 카드가 정확히 무엇을 할지는 확실하지 않습니다. 전체 스트라이프를 0으로 대체하거나 심지어 임의의 데이터로 대체할 수도 있음). 복구됨” 어레이에는 실제로 감지할 수 없는 손상이 있을 수 있습니다(영향을 받은 스트라이프가 일부 데이터 파일의 중간에 있는 경우). 재구축을 시도하기 전에 어레이에서 다른 위치로 데이터를 복사하는 것이 더 안전할 수 있습니다(적어도 불량 영역을 읽으려고 하면 오류가 발생해야 합니다).

읽을 수 없는 섹터를 더 일찍 발견하도록 어레이의 예약된 확인을 설정해야 방금 손상되기 시작한 드라이브를 교체할 수 있습니다.

답변2

물리적 드라이브(p0)가 DEGRADED 상태로 전환되는 것을 경험한 적이 없지만 다음을 통해 ECC-ERROR 드라이브 또는 DEGRADED 드라이브를 제거하여 다시 복구할 수 있습니다.

/c0 p1 remove

그런 다음 다시 스캔을 실행합니다.

/c0 rescan

다음을 통해 공격대 유닛에 다시 넣습니다.

maint rebuild c0 u0 p1

ECC-ERROR로 인해 실패한 SATA 드라이브는 다시 실패하기 전에 몇 시간만이라도 부활할 수 있었습니다.

답변3

귀하의 데이터가 사라졌을 가능성이 높습니다. ECC 오류는 이 디스크에서 읽는 동안 복구할 수 없는 오류를 의미합니다.

백업이 없으면 어레이의 현재 상태를 덤프해 볼 수 있습니다. 이는 컨트롤러가 데이터가 손실되었는지 또는 빈 영역만 손실되었는지(파일 시스템에 대한 통찰력이 부족함) 알지 못하기 때문에 가능할 수 있습니다.

관련 정보