NVIDIA-Treiber zeigt unter Grid K2 ein seltsames BIOS und UUID an

NVIDIA-Treiber zeigt unter Grid K2 ein seltsames BIOS und UUID an

Ich habe mehrere Server mit GRID K2 Nvidia Tesla-Karten.

Anfangs funktionierte alles einwandfrei. Aber ich habe vor Kurzem den Kerneltreiber aktualisiert und dabei ein Problem festgestellt, bei dem CUDA-basierte Apps das Vorhandensein von GPUs nicht mehr erkannten.

Bei näherer Betrachtung liefern die Details von /proc/drivers/nvidia/gpus/*/information keine gültigen GPU-UUID- und Video-BIOS-Details mehr. Stattdessen erhalte ich Folgendes. Während ich auf einem funktionierenden Knoten bin, erhalte ich normale Details (keine ?'s).

Bus Location:    0000:89:00.0
Model:           GRID K2
IRQ:             46
GPU UUID:        GPU-????????-????-????-????-????????????
Video BIOS:      ??.??.??.??.??
Bus Type:        PCIe
DMA Size:        37 bits
DMA Mask:        0x1fffffffff
Bus Location:    0000:8a:00.0

Ich habe versucht, einen Kaltstart der Maschinen auf die vorherige bekannte funktionierende Konfigurationsversion durchzuführen (diese Server werden per Netzwerk-Boot gestartet), aber das Problem besteht auch mit den alten Treibern weiterhin.

Was könnte hier schief laufen? Sind die Karten hinüber?

verwandte Informationen