Depuración del fallo del controlador cuda nvidia

Depuración del fallo del controlador cuda nvidia

Estoy ejecutando un servidor Ubuntu 14.04 sin cabeza con GPU GeForce 690, tratando de hacer cosas divertidas de aprendizaje automático de Cuda. Tengo problemas con el controlador que se bloquea y espero recibir ayuda para depurarlo aquí. Este es un tema nuevo; la tarjeta ha funcionado correctamente en el pasado para la informática.

El problema es que básicamente cualquier programa que intente conectarse a la tarjeta se cuelga. Sucede con programas muy simples que he escrito yo mismo, así como con el binario nvidia-smi proporcionado por nvidia. Ejecuté cada uno de estos a través de strace y todos se cuelgan en una llamada al sistema abierta, intentando abrir el dispositivo /dev/nvidiactl.

Una vez que los programas se cuelgan, ya no pueden recibir señales (kill -9 no tiene ningún efecto). Sólo puedo detenerlos reiniciando.

Intenté forzar rmmod del controlador nvidia, pero dice estar en uso. lsof no muestra ningún programa que contenga un descriptor de archivo para /dev/nvidiactl.

No hay ninguna pantalla conectada a la máquina y no se están ejecutando programas gráficos (X, gnome, unity, etc.).

¿Cuál es la mejor manera de comenzar a depurar algo como esto a nivel del sistema? Es difícil ya que el código del controlador es propietario...

información relacionada