GRID K2 NVIDIA Tesla 카드가 장착된 서버가 여러 대 있습니다.
처음에는 이것들이 잘 작동했습니다. 하지만 최근 커널 드라이버를 업그레이드했는데 CUDA 기반 앱이 더 이상 GPU의 존재를 감지하지 못하는 문제를 발견했습니다.
/proc/drivers/nvidia/gpus/*/information의 자세한 검사 세부 정보는 더 이상 유효한 GPU UUID 및 비디오 BIOS 세부 정보를 제공하지 않습니다. 대신 나는 다음을 얻습니다. 작업 노드에 있는 동안 일반적인 세부 정보(아니요, ?)를 얻습니다.
Bus Location: 0000:89:00.0
Model: GRID K2
IRQ: 46
GPU UUID: GPU-????????-????-????-????-????????????
Video BIOS: ??.??.??.??.??
Bus Type: PCIe
DMA Size: 37 bits
DMA Mask: 0x1fffffffff
Bus Location: 0000:8a:00.0
이전에 알려진 구성 작업 버전(이러한 서버는 네트워크 부팅됨)으로 컴퓨터를 콜드 재부팅해 보았지만 이전 드라이버에서도 문제가 지속됩니다.
여기서 무엇이 잘못될 수 있나요? 카드는 토스트인가요?