У меня есть несколько серверов, на которых установлены видеокарты GRID K2 nvidia Tesla.
Изначально они работали нормально. Но недавно я обновил драйвер ядра и обнаружил проблему, при которой приложения на базе CUDA больше не обнаруживали наличие графического процессора.
При более близком рассмотрении данные из /proc/drivers/nvidia/gpus/*/information больше не предоставляют действительные данные GPU UUID и Video BIOS. Вместо этого я получаю следующее. На рабочем узле я получаю нормальные данные (нет, ?).
Bus Location: 0000:89:00.0
Model: GRID K2
IRQ: 46
GPU UUID: GPU-????????-????-????-????-????????????
Video BIOS: ??.??.??.??.??
Bus Type: PCIe
DMA Size: 37 bits
DMA Mask: 0x1fffffffff
Bus Location: 0000:8a:00.0
Я попробовал выполнить холодную перезагрузку машин до предыдущей известной рабочей версии конфигурации (эти серверы загружаются по сети), но проблема сохраняется и со старыми драйверами.
Что тут может быть не так? Карты поджарены?