nvidia 驅動程式在 Grid K2 下顯示奇怪的 BIOS、uuid

nvidia 驅動程式在 Grid K2 下顯示奇怪的 BIOS、uuid

我有許多裝有 GRID K2 nvidia Tesla 卡的伺服器。

最初這些工作正常。但我最近升級了核心驅動程序,發現了一個問題:基於 CUDA 的應用程式不再檢測 GPU 的存在。

仔細檢查 /proc/drivers/nvidia/gpus/*/information 中的詳細資訊不再提供有效的 GPU UUID 和視訊 BIOS 詳細資訊。相反,我得到以下內容。在工作節點上時,我得到正常的詳細資料(不,?)。

Bus Location:    0000:89:00.0
Model:           GRID K2
IRQ:             46
GPU UUID:        GPU-????????-????-????-????-????????????
Video BIOS:      ??.??.??.??.??
Bus Type:        PCIe
DMA Size:        37 bits
DMA Mask:        0x1fffffffff
Bus Location:    0000:8a:00.0

我已嘗試將電腦冷啟動到先前已知的配置工作版本(這些伺服器是網路啟動的),並且舊驅動程式的問題仍然存在。

這裡可能出了什麼問題?這些卡片是吐司嗎?

相關內容