GRID K2 nvidia Tesla カードを搭載したサーバーが多数あります。
当初はこれらは正常に動作していました。しかし、最近カーネル ドライバーをアップグレードしたところ、CUDA ベースのアプリが GPU の存在を検出しなくなるという問題が見つかりました。
/proc/drivers/nvidia/gpus/*/information の詳細を詳しく調べると、有効な GPU UUID とビデオ BIOS の詳細が表示されなくなりました。代わりに、次の情報が表示されます。動作中のノードでは、通常の詳細が表示されます (? はありません)。
Bus Location: 0000:89:00.0
Model: GRID K2
IRQ: 46
GPU UUID: GPU-????????-????-????-????-????????????
Video BIOS: ??.??.??.??.??
Bus Type: PCIe
DMA Size: 37 bits
DMA Mask: 0x1fffffffff
Bus Location: 0000:8a:00.0
マシンを以前の既知の構成の動作バージョンにコールド リブートしてみましたが (これらのサーバーはネットブートされています)、古いドライバーでも問題は解決しません。
一体何がおかしいのでしょうか? カードはダメなのでしょうか?