Я использую headless Ubuntu server 14.04 с GeForce 690 GPU, пытаюсь сделать забавные вещи с машинным обучением Cuda. У меня проблемы с зависанием драйвера, и я надеюсь получить помощь в его отладке здесь. Это новая проблема; карта работала правильно в прошлом для вычислений.
Проблема в том, что в принципе любая программа, которая пытается подключиться к карте, зависает. Это происходит с очень простыми программами, которые я написал сам, а также с бинарником nvidia-smi, предоставленным nvidia. Я прогнал каждую из них через strace, и все они зависли на открытом системном вызове, пытаясь открыть устройство /dev/nvidiactl.
После того, как программы зависли, они больше не могут получать сигналы (kill -9 не дает эффекта). Я могу остановить их только перезагрузкой.
Я попытался принудительно выполнить rmmod драйвера nvidia, но он утверждает, что используется. lsof не показывает программ, которые на самом деле содержат файловый дескриптор для /dev/nvidiactl.
К машине не подключен дисплей и не запущены графические программы (X, gnome, unity и т. д.).
Каков наилучший способ хотя бы начать отладку чего-то подобного на системном уровне? Это сложно, поскольку код драйвера является проприетарным...