我正在運行具有 GeForce 690 GPU 的無頭 Ubuntu 伺服器 14.04,嘗試做有趣的 Cuda 機器學習工作。我遇到了驅動程式掛起的問題,希望在這裡獲得一些調試幫助。這是一個新問題;該卡過去在計算方面運作正常。
問題是基本上任何嘗試連接到該卡的程式都會掛起。我自己編寫的非常簡單的程式以及 nvidia 提供的 nvidia-smi 二進位都會發生這種情況。我已經透過 strace 運行了其中的每一個,它們都掛在開啟的系統呼叫上,嘗試開啟 /dev/nvidiactl 裝置。
一旦程式掛起,它們就不再能夠接收訊號(kill -9 無效)。我只能透過重新啟動來阻止它們。
我試圖強制 rmmod 的 nvidia 驅動程序,但它聲稱正在使用。 lsof 顯示沒有程式實際儲存 /dev/nvidiactl 的檔案描述子。
機器上沒有連接顯示器,也沒有運行任何圖形程式(X、gnome、unity 等)。
在系統層級開始調試此類內容的最佳方法是什麼?這很困難,因為驅動程式程式碼是專有的...