我有許多裝有 GRID K2 nvidia Tesla 卡的伺服器。
最初這些工作正常。但我最近升級了核心驅動程序,發現了一個問題:基於 CUDA 的應用程式不再檢測 GPU 的存在。
仔細檢查 /proc/drivers/nvidia/gpus/*/information 中的詳細資訊不再提供有效的 GPU UUID 和視訊 BIOS 詳細資訊。相反,我得到以下內容。在工作節點上時,我得到正常的詳細資料(不,?)。
Bus Location: 0000:89:00.0
Model: GRID K2
IRQ: 46
GPU UUID: GPU-????????-????-????-????-????????????
Video BIOS: ??.??.??.??.??
Bus Type: PCIe
DMA Size: 37 bits
DMA Mask: 0x1fffffffff
Bus Location: 0000:8a:00.0
我已嘗試將電腦冷啟動到先前已知的配置工作版本(這些伺服器是網路啟動的),並且舊驅動程式的問題仍然存在。
這裡可能出了什麼問題?這些卡片是吐司嗎?