我正在嘗試將我的 Nvidia GPU 用於科學目的。然而,一段時間後,我啟動了該 GPU 的進程,我的電腦關閉了。除非 PSU 電源按鈕關閉並保持此狀態至少 30 秒然後打開,否則無法透過機箱按鈕開啟。我正在嘗試找出這種情況的原因。
我的系統概述是:
- Linux(軟呢帽)
- 主機板:技嘉GA-970A-UD3
- Nvidia Gtx 1070(用於 GPU 任務)
- Radeon HD 7850(用於標準用途)
- 700W電源
以下是我迄今為止嘗試過的事情的清單:
- 我做了CPU負載測試,它沒有關閉
- 我刪除了 AMD GPU,它仍然關閉
- 如果我在短時間內對 Nvidia GPU 進行少量計算,它不會關閉
- 如果我進行繁重的計算,它會在啟動後很快關閉
- 我檢查了 Nvidia GPU 溫度,甚至它浮動最大。 55℃左右,它會關閉
- 我手動將 Nvidia GPU 風扇速度設定為 %80。這似乎有幫助,因為給定的任務運行時間比平常長一點,但它並沒有阻止關閉
- 我移除了額外的 HDD 或風扇以減輕 PSU 的疲勞,但這根本沒有幫助
- 我使用添加了額外的 PSU添加2電源但仍關閉
- 即使CPU溫度在45左右,如果Nvidia GPU開始計算,它也會關閉
- 我完全改變了我的計算軟體,但它關閉了
- 我更新了 Nvidia 驅動程序,但這沒有幫助
- 我嘗試隨機計算以隔離硬碟讀取過程,但它仍然關閉
- 我重新安裝了作業系統,但問題仍然存在
- 我檢查了主機板但沒有燒傷痕跡
您有什麼建議?造成這種情況的根本原因可能是什麼?
謝謝。
答案1
你的CPU溫度是多少?散熱膏使用不當,例如:CPU 冷卻器不足或未對準可能會因過熱而導致同樣的問題,最後要檢查的一件事是您的電源,我最近有一個電源在負載(遊戲)下出現故障,並且會重新啟動我的系統但當我不玩遊戲時會運行幾個小時。最便宜且最容易首先檢查的是 PSU,如果仍然沒有緩解,然後考慮重新塗抹 CPU 上的導熱膏,並確保 CPU 冷卻器正確安裝。
答案2
我檢查了 Nvidia GPU 中任務執行期間的時脈頻率,發現它確實超出了規格最大值。因此,在一些較低的狀態(例如 P8)下,它不會關閉,但超頻頻率會阻止它在較高的狀態下工作。
我無法限制 Nvidia GPU 的時脈頻率。然而,我設法透過限制它的功耗來使其工作,但代價是執行速度相對較慢 20%。
命令:
nvidia-smi --persistence-mode=1
nvidia-smi --power-limit=$POWER_LIMIT