LSI 9271 RAID 컨트롤러에서 데이터 전송이 일시 중지됩니다.

LSI 9271 RAID 컨트롤러에서 데이터 전송이 일시 중지됩니다.

LSI 9271-8i RAID 컨트롤러가 장착된 서버가 있는데, 4개의 4TB는 RAID-5로 구성되고 1개의 8TB는 JBOD(컨트롤러에서는 RAID-0이라고 함)로 구성되어 있습니다.

더 많은 양의 데이터(~1TB)를 복사할 때 다음을 관찰할 수 있습니다. 처음 몇 기가바이트의 경우 전송 속도는 양호하고 디스크 또는 네트워크 속도(보통 ~100MB/s)에 의해 제한됩니다. 그러나 잠시 후 전송이 약 1분 동안 완전히 일시 중지됩니다. 20-30초, 그리고 다음 약으로 계속됩니다. 1GB. 각각 10MB에서 500MB 사이의 많은 파일을 복사하는데, 일시 정지 중에 robocopy는 파일에 머물다가 일시 정지 후 다음 파일로 계속됩니다. 이렇게 하면 전체 전송 속도가 ~20MB/s로 떨어집니다.

일시 중지 중에는 드라이브 파일을 검색할 수 없으며 한 경우에는 컨트롤러 재설정 오류 메시지("컨트롤러에 치명적인 오류가 발생하여 재설정되었습니다.")가 표시되었습니다. 또한 해당 일시 중지 중에는 CLI 도구를 사용하여 컨트롤러 데이터에 액세스할 수 없습니다(일시 중지가 끝나면 결과가 표시됨).

복사할 때 이 동작을 관찰할 수 있었습니다.

  • 기가비트 네트워크를 RAID-5 볼륨으로
  • 기가비트 네트워크에서 JBOD 볼륨으로
  • JBOD에서 RAID-5로
  • RAID-5에서 JBOD로

제가 보기에 의심스러워 보이는 일은 없습니다. 온도(디스크, BBU)가 유효한 범위 내에 있고 컨트롤러 온도가 약간 높은 것 같지만 사양 내에 있습니다. RAID에서 실행 중인 검사가 없고 진행 중인 재구축이 없습니다.

추측이 있나요?

컨트롤러를 교체하기 전에 열 상황을 최적화해 보고 싶습니다. 이 동작이 열 문제일 가능성이 있는 것 같나요?

처음 20~30GB는 제대로 작동하고 그 전에는 일시 중지가 발생하지 않는 것이 이상합니다. 잠시 동안 서버를 그대로 두고 다시 시도하면 다시 몇 GB가 잘 복사됩니다. 나에게 유일한 순진한 설명은 컨트롤러가 너무 뜨거워진다는 것입니다. 왜 디스크가 아닌 컨트롤러인가요? RAID-5 디스크는 7200rpm이고 매우 촘촘하게 쌓인 반면, JBOD 단일 디스크는 5400rpm이고 주변에 많은 공기가 있습니다. 둘 다 동일한 과열 증상을 보인다면 이상할 것입니다.

답변1

9260-16i에서도 비슷한 문제가 있었습니다. LSI에 바로 듀얼 92mm 팬이 불고 있기 때문에 온도가 좋지 않았습니다. 같은 방식으로 두 번째 서버를 설정했는데 괜찮 았습니다. 내가 발견한 것은 문제가 있는 서버가 64K 스트립 크기로 설정되어 있고 작업 서버의 스트라이프 크기가 ​​256K라는 것입니다. 문제가 있는 서버를 백업하고 256K 스트라이프로 드라이브 그룹을 재구축한 다음 OS 드라이브를 64K 클러스터로 포맷했습니다(수GB 파일이 있으므로). 저는 주저 없이 데이터를 뒤로 이동해 왔으며 기본적으로 시간당 350GB가 넘는 쓰기 작업을 중단 없이 중단 없이 최대 기가비트 NIC 속도로 실행했습니다.

답변2

이 문제는 아마도 컨트롤러가 자체 DRAM 캐시를 플러시하는 것과 관련이 있을 것입니다. 이러한 문제가 있는 사람은 컨트롤러 캐시를 writethrough다음 으로 설정해 보아야 합니다.writeback

관련 정보