Depurando a falha do driver cuda nvidia

Depurando a falha do driver cuda nvidia

Estou executando um servidor Ubuntu 14.04 sem cabeça com GPU GeForce 690, tentando fazer coisas divertidas de aprendizado de máquina Cuda. Estou tendo problemas com o travamento do driver e espero obter ajuda para depurá-lo aqui. Esta é uma questão nova; a placa funcionou corretamente no passado para computação.

O problema é que basicamente qualquer programa que tente se conectar à placa trava. Isso acontece com programas muito simples que eu mesmo escrevi, bem como com o binário nvidia-smi fornecido pela nvidia. Eu executei cada um deles através do strace e todos eles ficam pendurados em um syscall aberto, tentando abrir o dispositivo/dev/nvidiactl.

Uma vez que os programas são interrompidos, eles não são mais capazes de receber sinais (kill -9 não tem efeito). Só posso pará-los reiniciando.

Tentei forçar o rmmod do driver da nvidia, mas ele afirma estar em uso. lsof não mostra nenhum programa que contenha um descritor de arquivo para/dev/nvidiactl.

Não há nenhum monitor conectado à máquina e nenhum programa gráfico (X, gnome, unidade, etc.) está em execução.

Qual é a melhor maneira de começar a depurar algo assim no nível do sistema? É difícil porque o código do driver é proprietário ...

informação relacionada