Tengo varios servidores que tienen tarjetas GRID K2 nvidia Tesla.
Al principio funcionaban bien. Pero recientemente actualicé el controlador del kernel y encontré un problema en el que las aplicaciones basadas en CUDA ya no detectaban la presencia de GPU.
En una inspección más cercana, los detalles de /proc/drivers/nvidia/gpus/*/information ya no brindan detalles válidos de UUID de GPU y BIOS de video. En lugar de eso, obtengo lo siguiente. Mientras estoy en un nodo en funcionamiento, obtengo detalles normales (no, ?).
Bus Location: 0000:89:00.0
Model: GRID K2
IRQ: 46
GPU UUID: GPU-????????-????-????-????-????????????
Video BIOS: ??.??.??.??.??
Bus Type: PCIe
DMA Size: 37 bits
DMA Mask: 0x1fffffffff
Bus Location: 0000:8a:00.0
Intenté reiniciar en frío las máquinas a la versión de trabajo de configuración conocida anterior (estos servidores se inician en red) y el problema también persiste con los controladores antiguos.
¿Qué podría estar fallando aquí? ¿Las cartas están tostadas?