nvidia-smi 명령으로 제공되는 GPU 사용량은 게스트 OS의 GPU 측정항목과 매우 다릅니다.

nvidia-smi 명령으로 제공되는 GPU 사용량은 게스트 OS의 GPU 측정항목과 매우 다릅니다.

저는 가상머신의 vgpu 사용량을 모니터링할 수 있는 프로젝트를 진행하고 있습니다. 하이퍼바이저는 vCentervCenter 호스트에 nvidia A16 카드가 설치되어 있고 이 호스트의 두 개의 Windows VM에 a16 vGPU가 할당되어 있으며 이러한 vGPU는 동일한 GPU 칩에 할당됩니다.

nvidia-smi호스트와 VM 모두에서 vGPU 사용량을 검색하기 위해 명령을 사용하려고 했습니다 . 호스트에서는 를 사용했고 nvidia-smi vgpuVM에서는 nvdia-smi. 그러나 nvidia-smi에서 제공하는 메트릭은 VM의 Windows OS에서 제공하는 메트릭과 항상 다른 것으로 나타났습니다.

예를 들어 사용량은 다음 nvidia-smi과 같이 낮을 수 있습니다.6%, 그러나 Windows 작업 관리자의 사용법은 항상 주변에 있었습니다15%.

여기에 이미지 설명을 입력하세요

우리는 사용자 사례의 실제 수요를 반영하므로 게스트 OS에서 제공하는 측정항목을 신뢰하는 것을 선호합니다.

제 질문은 nvidia-smi 측정항목의 의미와 출처가 무엇입니까?입니다. 결과가 왜 이렇게 다른 걸까요? 실제 고객 수요를 반영하도록 결과를 수정할 수 있나요?

어떤 조언이라도 주셔서 감사합니다!

답변1

작업 관리자와 nvidia-smi가 측정하는 기간 및/또는 시점이 다를 수 있으며 이로 인해 사용 비율이 달라집니다.

에 따라선적 서류 비치

활용.gpu

지난 샘플 기간 동안 하나 이상의 커널이 GPU에서 실행된 시간의 비율입니다. 샘플 주기는 제품에 따라 1초에서 1/6초 사이일 수 있습니다.

활용도.메모리

전역(장치) 메모리를 읽거나 쓰는 동안 지난 샘플 기간 동안의 시간 비율입니다. 샘플 주기는 제품에 따라 1초에서 1/6초 사이일 수 있습니다.

일정하고 변하지 않는 부하를 시도하고 일치하는지 측정합니다.

관련 정보