GPU負載下電腦關機根本原因檢查

GPU負載下電腦關機根本原因檢查

我正在嘗試將我的 Nvidia GPU 用於科學目的。然而,一段時間後,我啟動了該 GPU 的進程,我的電腦關閉了。除非 PSU 電源按鈕關閉並保持此狀態至少 30 秒然後打開,否則無法透過機箱按鈕開啟。我正在嘗試找出這種情況的原因。

我的系統概述是:

  • Linux(軟呢帽)
  • 主機板:技嘉GA-970A-UD3
  • Nvidia Gtx 1070(用於 GPU 任務)
  • Radeon HD 7850(用於標準用途)
  • 700W電源

以下是我迄今為止嘗試過的事情的清單:

  • 我做了CPU負載測試,它沒有關閉
  • 我刪除了 AMD GPU,它仍然關閉
  • 如果我在短時間內對 Nvidia GPU 進行少量計算,它不會關閉
  • 如果我進行繁重的計算,它會在啟動後很快關閉
  • 我檢查了 Nvidia GPU 溫度,甚至它浮動最大。 55℃左右,它會關閉
  • 我手動將 Nvidia GPU 風扇速度設定為 %80。這似乎有幫助,因為給定的任務運行時間比平常長一點,但它並沒有阻止關閉
  • 我移除了額外的 HDD 或風扇以減輕 PSU 的疲勞,但這根本沒有幫助
  • 我使用添加了額外的 PSU添加2電源但仍關閉
  • 即使CPU溫度在45左右,如果Nvidia GPU開始計算,它也會關閉
  • 我完全改變了我的計算軟體,但它關閉了
  • 我更新了 Nvidia 驅動程序,但這沒有幫助
  • 我嘗試隨機計算以隔離硬碟讀取過程,但它仍然關閉
  • 我重新安裝了作業系統,但問題仍然存在
  • 我檢查了主機板但沒有燒傷痕跡

您有什麼建議?造成這種情況的根本原因可能是什麼?

謝謝。

答案1

你的CPU溫度是多少?散熱膏使用不當,例如:CPU 冷卻器不足或未對準可能會因過熱而導致同樣的問題,最後要檢查的一件事是您的電源,我最近有一個電源在負載(遊戲)下出現故障,並且會重新啟動我的系統但當我不玩遊戲時會運行幾個小時。最便宜且最容易首先檢查的是 PSU,如果仍然沒有緩解,然後考慮重新塗抹 CPU 上的導熱膏,並確保 CPU 冷卻器正確安裝。

答案2

我檢查了 Nvidia GPU 中任務執行期間的時脈頻率,發現它確實超出了規格最大值。因此,在一些較低的狀態(例如 P8)下,它不會關閉,但超頻頻率會阻止它在較高的狀態下工作。

我無法限制 Nvidia GPU 的時脈頻率。然而,我設法透過限制它的功耗來使其工作,但代價是執行速度相對較慢 20%。

命令:

nvidia-smi --persistence-mode=1
nvidia-smi --power-limit=$POWER_LIMIT

相關內容