cuda v100 및 RTX2080 대역폭 변동

cuda v100 및 RTX2080 대역폭 변동

나는 다음과 매우 유사한 간단한 cuda 커널(크기 N의 두 벡터 추가)을 가지고 있습니다.여기 이 cuda 블로그로. 다양한 샘플에 대해 측정을 실행하는 등 몇 가지 사항만 변경했습니다. 따라서 이를 1000번 실행하고 나중에 이 측정값을 txt에 기록해 보겠습니다. 이제 벡터를 장치로 전송하기 위한 측정값을 플로팅하면 다음과 같은 결과를 얻습니다.

여기에 이미지 설명을 입력하세요

이제 수직 오류 막대로 그려진 stddev를 살펴보면 로그-로그 플롯에서 오류 막대가 다소 일정하기 때문에 어떤 이유로든 데이터 이동 변동이 크기에 따라 확장된다는 것이 분명해집니다. 이는 stddev만 플롯했을 때 검증할 수 있습니다.

여기에 이미지 설명을 입력하세요

만약 내가 그 프로그램에서 똑같은 프로그램을 선택한다면쿠다 블로그, 그러면 매 10번째 실행마다 또는 대역폭 변동도 발생합니다. 이것은 어디에서 오는가? V100과 RTX2080이라는 두 개의 서로 다른 GPU에서 동일한 동작을 관찰했습니다. 이미지 관련하여 불편을 드려 죄송합니다. 평판 포인트가 부족합니다.

답변1

로서NVIDIA 개발자 포럼 사용자가 제안함고정되지 않은 메모리 대신 고정된 메모리를 사용해 보았는데 꽤 잘 작동했습니다. 변동이 거의 완전히 사라졌습니다.

관련 정보