Eu tenho vários servidores que possuem placas GRID K2 nvidia Tesla.
Inicialmente, eles estavam funcionando bem. Mas recentemente atualizei o driver do kernel e encontrei um problema em que os aplicativos baseados em CUDA não detectavam mais a presença de GPUs.
Em uma inspeção mais detalhada, os detalhes de /proc/drivers/nvidia/gpus/*/information não estão mais fornecendo detalhes válidos de UUID de GPU e BIOS de vídeo. Em vez disso, estou recebendo o seguinte. Enquanto estou em um nó de trabalho, obtenho detalhes normais (não,?'s).
Bus Location: 0000:89:00.0
Model: GRID K2
IRQ: 46
GPU UUID: GPU-????????-????-????-????-????????????
Video BIOS: ??.??.??.??.??
Bus Type: PCIe
DMA Size: 37 bits
DMA Mask: 0x1fffffffff
Bus Location: 0000:8a:00.0
Eu tentei reinicializar as máquinas a frio para a versão anterior de configuração conhecida (esses servidores são inicializados pela rede) e o problema também persiste com os drivers antigos.
O que poderia estar errado aqui? As cartas estão de brinde?