Estoy ejecutando un servidor Ubuntu 14.04 sin cabeza con GPU GeForce 690, tratando de hacer cosas divertidas de aprendizaje automático de Cuda. Tengo problemas con el controlador que se bloquea y espero recibir ayuda para depurarlo aquí. Este es un tema nuevo; la tarjeta ha funcionado correctamente en el pasado para la informática.
El problema es que básicamente cualquier programa que intente conectarse a la tarjeta se cuelga. Sucede con programas muy simples que he escrito yo mismo, así como con el binario nvidia-smi proporcionado por nvidia. Ejecuté cada uno de estos a través de strace y todos se cuelgan en una llamada al sistema abierta, intentando abrir el dispositivo /dev/nvidiactl.
Una vez que los programas se cuelgan, ya no pueden recibir señales (kill -9 no tiene ningún efecto). Sólo puedo detenerlos reiniciando.
Intenté forzar rmmod del controlador nvidia, pero dice estar en uso. lsof no muestra ningún programa que contenga un descriptor de archivo para /dev/nvidiactl.
No hay ninguna pantalla conectada a la máquina y no se están ejecutando programas gráficos (X, gnome, unity, etc.).
¿Cuál es la mejor manera de comenzar a depurar algo como esto a nivel del sistema? Es difícil ya que el código del controlador es propietario...