driver nvidia exibindo bios estranhos, uuid na grade K2

driver nvidia exibindo bios estranhos, uuid na grade K2

Eu tenho vários servidores que possuem placas GRID K2 nvidia Tesla.

Inicialmente, eles estavam funcionando bem. Mas recentemente atualizei o driver do kernel e encontrei um problema em que os aplicativos baseados em CUDA não detectavam mais a presença de GPUs.

Em uma inspeção mais detalhada, os detalhes de /proc/drivers/nvidia/gpus/*/information não estão mais fornecendo detalhes válidos de UUID de GPU e BIOS de vídeo. Em vez disso, estou recebendo o seguinte. Enquanto estou em um nó de trabalho, obtenho detalhes normais (não,?'s).

Bus Location:    0000:89:00.0
Model:           GRID K2
IRQ:             46
GPU UUID:        GPU-????????-????-????-????-????????????
Video BIOS:      ??.??.??.??.??
Bus Type:        PCIe
DMA Size:        37 bits
DMA Mask:        0x1fffffffff
Bus Location:    0000:8a:00.0

Eu tentei reinicializar as máquinas a frio para a versão anterior de configuração conhecida (esses servidores são inicializados pela rede) e o problema também persiste com os drivers antigos.

O que poderia estar errado aqui? As cartas estão de brinde?

informação relacionada