調試 cuda nvidia 驅動程式崩潰

調試 cuda nvidia 驅動程式崩潰

我正在運行具有 GeForce 690 GPU 的無頭 Ubuntu 伺服器 14.04,嘗試做有趣的 Cuda 機器學習工作。我遇到了驅動程式掛起的問題,希望在這裡獲得一些調試幫助。這是一個新問題;該卡過去在計算方面運作正常。

問題是基本上任何嘗試連接到該卡的程式都會掛起。我自己編寫的非常簡單的程式以及 nvidia 提供的 nvidia-smi 二進位都會發生這種情況。我已經透過 strace 運行了其中的每一個,它們都掛在開啟的系統呼叫上,嘗試開啟 /dev/nvidiactl 裝置。

一旦程式掛起,它們就不再能夠接收訊號(kill -9 無效)。我只能透過重新啟動來阻止它們。

我試圖強制 rmmod 的 nvidia 驅動程序,但它聲稱正在使用。 lsof 顯示沒有程式實際儲存 /dev/nvidiactl 的檔案描述子。

機器上沒有連接顯示器,也沒有運行任何圖形程式(X、gnome、unity 等)。

在系統層級開始調試此類內容的最佳方法是什麼?這很困難,因為驅動程式程式碼是專有的...

相關內容