저는 GeForce 690 GPU가 탑재된 헤드리스 Ubuntu 서버 14.04를 실행하면서 재미있는 Cuda 기계 학습 작업을 수행하려고 합니다. 드라이버가 멈추는 문제가 있어서 여기에서 디버깅하는 데 도움을 받고 싶습니다. 이것은 새로운 문제입니다. 과거에는 카드가 컴퓨팅에 올바르게 작동했습니다.
문제는 기본적으로 카드에 연결을 시도하는 모든 프로그램이 중단된다는 것입니다. 이는 제가 직접 작성한 매우 간단한 프로그램과 nvidia에서 제공하는 nvidia-smi 바이너리에서 발생합니다. strace를 통해 이들 각각을 실행했는데 모두 /dev/nvidiactl 장치를 열려고 시도하면서 열린 syscall에 걸려 있습니다.
프로그램이 정지되면 더 이상 신호를 수신할 수 없습니다(kill -9는 효과가 없습니다). 재부팅해야만 중지할 수 있습니다.
nvidia 드라이버의 rmmod를 강제로 시도했지만 사용 중이라고 합니다. lsof는 /dev/nvidiactl에 대한 파일 설명자를 실제로 보유하고 있는 프로그램이 없음을 보여줍니다.
기계에 디스플레이가 연결되어 있지 않으며 그래픽 프로그램(X, gnome, Unity 등)이 실행되고 있지 않습니다.
시스템 수준에서 이와 같은 디버깅을 시작하는 가장 좋은 방법은 무엇입니까? 드라이버 코드가 독점이라 어렵네요...