
Ich habe mehrere Server mit GRID K2 Nvidia Tesla-Karten.
Anfangs funktionierte alles einwandfrei. Aber ich habe vor Kurzem den Kerneltreiber aktualisiert und dabei ein Problem festgestellt, bei dem CUDA-basierte Apps das Vorhandensein von GPUs nicht mehr erkannten.
Bei näherer Betrachtung liefern die Details von /proc/drivers/nvidia/gpus/*/information keine gültigen GPU-UUID- und Video-BIOS-Details mehr. Stattdessen erhalte ich Folgendes. Während ich auf einem funktionierenden Knoten bin, erhalte ich normale Details (keine ?'s).
Bus Location: 0000:89:00.0
Model: GRID K2
IRQ: 46
GPU UUID: GPU-????????-????-????-????-????????????
Video BIOS: ??.??.??.??.??
Bus Type: PCIe
DMA Size: 37 bits
DMA Mask: 0x1fffffffff
Bus Location: 0000:8a:00.0
Ich habe versucht, einen Kaltstart der Maschinen auf die vorherige bekannte funktionierende Konfigurationsversion durchzuführen (diese Server werden per Netzwerk-Boot gestartet), aber das Problem besteht auch mit den alten Treibern weiterhin.
Was könnte hier schief laufen? Sind die Karten hinüber?