
RAID bus controller: 3ware Inc 9550SX SATA-II RAID PCI-X
현재 상태는 다음과 같은 4개의 디스크가 있습니다 .
tw_cli> /c1 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 REBUILD-PAUSED 0% - 256K 931.303 OFF OFF
u1 SPARE OK - - - 465.753 - OFF
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 OK u0 465.76 GB 976773168 WD-WCAS87320631
p1 OK u0 465.76 GB 976773168 WD-WCAS87223554
p2 DEGRADED u0 465.76 GB 976773168 WD-WCAS87159042
p3 OK u1 465.76 GB 976773168 WD-WMAYP6812676
p4 NOT-PRESENT - - - -
p5 NOT-PRESENT - - - -
p6 NOT-PRESENT - - - -
p7 NOT-PRESENT - - - -
재구축이 활성화되었습니다. 때때로 시작되고(상태: REBUILDING
) 1분 정도 작업을 수행한 다음 다시 로 돌아갑니다 REBUILD-PAUSED
. 절대 %RCmpl
0%를 넘지 않습니다. 로그( /var/log/messages
)는 약 5분마다 다음과 같이 말합니다.
Dec 5 23:41:57 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x000B): Rebuild started:unit=0.
Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x003A): Drive power on reset detected:port=1.
Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x001A): Drive inserted:port=1.
저는 이 하드웨어를 처음 접했고 기계와 유지 관리 작업을 물려받았습니다. 그것은 무엇을 나타낼 수 있습니까? 나에게 있는 문제는 얼마나 큰가? 어떻게 해야 하나요?
새로운 이벤트
Dec 6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current<4>3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec 6 00:25:42 somelinux kernel: : sense key=0x2
Dec 6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec 6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec 6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec 6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec 6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec 6 00:25:43 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x001E): Unit inoperable:unit=0.
Dec 6 00:28:02 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec 6 00:28:02 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec 6 00:28:02 somelinux kernel: end_request: I/O error, dev sdc, sector 104927621
Dec 6 00:28:02 somelinux kernel: xfs_force_shutdown(dm-0,0x2) called from line 956 of file fs/xfs/xfs_log.c. Return address = 0xc028860d
... 그리고 ...
tw_cli> /c1 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 INOPERABLE - - 256K 931.303 OFF OFF
u1 SPARE OK - - - 465.753 - OFF
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 OK u0 465.76 GB 976773168 WD-WCAS87320631
p1 NOT-PRESENT - - - -
p2 OK u0 465.76 GB 976773168 WD-WCAS87159042
p3 OK u1 465.76 GB 976773168 WD-WMAYP6812676
p4 NOT-PRESENT - - - -
p5 NOT-PRESENT - - - -
p6 NOT-PRESENT - - - -
p7 NOT-PRESENT - - - -
p1의 상태가 정말 좋지 않은 것 같습니다.
후속 조치
작동이 불가능해지기 전에 항상 몇 분/시간 동안 작동했습니다. 그렇게 해서 데이터 백업에 성공했습니다. 나는 매우 운이 좋았습니다. 나는 더 세심한 주의가 필요하다는 것을 배웠습니다. 그렇지 않으면 중복된 스토리지를 가질 필요가 없습니다.
이전 어레이를 삭제했습니다. 결함이 있는 디스크를 제거했습니다. 3개의 좋은 멤버로 새로운 배열을 정의했습니다. 파일 시스템을 다시 만들었습니다. 백업을 복원했습니다. 행복한 결말.
답변1
마음을 단단히 먹으세요.
RAID 5가 종료되었습니다.
u0 RAID-5 INOPERABLE - - 256K 931.303 OFF OFF
이는 SCSI/I/O 오류의 원인이기도 합니다. RAID 5는 4개의 디스크가 아닙니다. 3개뿐입니다. 네 번째 디스크 p3은 기본 유닛 u0이 아닌 자체 유닛 u1에 있습니다.
제공하신 텍스트로 판단하면 아마도 다음과 같은 일이 발생했을 것입니다.
- p2의 성능이 저하되어 재구축을 시도했습니다.
- 이 동안 p1 감지가 중지되었습니다.
- 2개의 드라이브가 작동하지 않거나 감지되지 않아 RAID 5 오류
p2가 이제 "OK"로 표시된다는 사실은 RAID 5의 상태와 관련이 없습니다.
이 서버에는 백업이 있기를 바랍니다. 왜냐하면 이를 복구할 수 없을 가능성이 높기 때문입니다. 나는 tw_cli가 어레이를 온라인으로 강제하는 것을 지원하지 않는다고 생각합니다. 다음은 실패한 어레이에서 데이터를 검색하는 데 도움이 되지 않지만 권장되는 방법은 다음과 같습니다.
- 장애가 있거나 누락된 드라이브(p1) 교체
- 카드가 RAID 6을 지원하지 않기 때문에 이를 사용할 수 없으므로(대형 드라이브에 권장) RAID 10을 사용해야 합니다. RAID 10으로 다시 만들고, 파티션을 만들고, 포맷/마운트하고 /etc를 업데이트합니다. /fstab.
- 백업에서 복원하세요.
이것을 여분의 RAID 5로 설정한 사람(제대로 설정되지 않음)은 가장 밝지 않았습니다.