Grid K2 で nvidia ドライバーが奇妙な BIOS、UUID を表示する

Grid K2 で nvidia ドライバーが奇妙な BIOS、UUID を表示する

GRID K2 nvidia Tesla カードを搭載したサーバーが多数あります。

当初はこれらは正常に動作していました。しかし、最近カーネル ドライバーをアップグレードしたところ、CUDA ベースのアプリが GPU の存在を検出しなくなるという問題が見つかりました。

/proc/drivers/nvidia/gpus/*/information の詳細を詳しく調べると、有効な GPU UUID とビデオ BIOS の詳細が表示されなくなりました。代わりに、次の情報が表示されます。動作中のノードでは、通常の詳細が表示されます (? はありません)。

Bus Location:    0000:89:00.0
Model:           GRID K2
IRQ:             46
GPU UUID:        GPU-????????-????-????-????-????????????
Video BIOS:      ??.??.??.??.??
Bus Type:        PCIe
DMA Size:        37 bits
DMA Mask:        0x1fffffffff
Bus Location:    0000:8a:00.0

マシンを以前の既知の構成の動作バージョンにコールド リブートしてみましたが (これらのサーバーはネットブートされています)、古いドライバーでも問題は解決しません。

一体何がおかしいのでしょうか? カードはダメなのでしょうか?

関連情報