我正在開發一個可以監控虛擬機器 vgpu 使用情況的專案。虛擬機管理程式是vCenter
,我們在 vCenter 主機上安裝了 nvidia A16 卡,並將 a16 vGPU 分配給該主機上的幾個 Windows 虛擬機,這些 vGPU 分配給同一 GPU 晶片。
我嘗試使用nvidia-smi
命令檢索主機和虛擬機器中的 vGPU 使用情況。在我使用的主機中nvidia-smi vgpu
,在我使用的虛擬機器中nvdia-smi
。但事實證明,nvidia-smi 提供的指標始終與 VM 中 Windows 作業系統提供的指標不同。
例如,使用量nvidia-smi
可能低至6%,但 Windows 工作管理員的使用始終存在15%。
我們更願意相信來賓作業系統提供的指標,因為它反映了使用者案例的真實需求。
我的問題是,nvidia-smi指標的意義和來源是什麼?為什麼結果如此不同?我可以以某種方式修改結果以反映真實的客人需求嗎?
感謝您的指點!
答案1
任務管理器和 nvidia-smi 測量的週期和/或時間點可能不同,這會導致不同的使用百分比。
根據文件
利用率.gpu
過去採樣期間一個或多個核心在 GPU 上執行的時間百分比。採樣週期可能在 1 秒到 1/6 秒之間,具體取決於產品。
記憶體利用率
過去採樣期間讀取或寫入全域(裝置)記憶體的時間百分比。採樣週期可能在 1 秒到 1/6 秒之間,具體取決於產品。
嘗試恆定不變的負載並測量它們是否匹配。