nvidia-smi 指令提供的 GPU 使用情況與來賓作業系統的 GPU 指標有很大不同

nvidia-smi 指令提供的 GPU 使用情況與來賓作業系統的 GPU 指標有很大不同

我正在開發一個可以監控虛擬機器 vgpu 使用情況的專案。虛擬機管理程式是vCenter,我們在 vCenter 主機上安裝了 nvidia A16 卡,並將 a16 vGPU 分配給該主機上的幾個 Windows 虛擬機,這些 vGPU 分配給同一 GPU 晶片。

我嘗試使用nvidia-smi命令檢索主機和虛擬機器中的 vGPU 使用情況。在我使用的主機中nvidia-smi vgpu,在我使用的虛擬機器中nvdia-smi。但事實證明,nvidia-smi 提供的指標始終與 VM 中 Windows 作業系統提供的指標不同。

例如,使用量nvidia-smi可能低至6%,但 Windows 工作管理員的使用始終存在15%

在此輸入影像描述

我們更願意相信來賓作業系統提供的指標,因為它反映了使用者案例的真實需求。

我的問題是,nvidia-smi指標的意義和來源是什麼?為什麼結果如此不同?我可以以某種方式修改結果以反映真實的客人需求嗎?

感謝您的指點!

答案1

任務管理器和 nvidia-smi 測量的週期和/或時間點可能不同,這會導致不同的使用百分比。

根據文件

利用率.gpu

過去採樣期間一個或多個核心在 GPU 上執行的時間百分比。採樣週期可能在 1 秒到 1/6 秒之間,具體取決於產品。

記憶體利用率

過去採樣期間讀取或寫入全域(裝置)記憶體的時間百分比。採樣週期可能在 1 秒到 1/6 秒之間,具體取決於產品。

嘗試恆定不變的負載並測量它們是否匹配。

相關內容