GPU 負荷時のコンピュータシャットダウンの根本原因の調査

GPU 負荷時のコンピュータシャットダウンの根本原因の調査

私は科学的目的で Nvidia GPU を使用しようとしています。しかし、しばらくしてこの GPU のプロセスを開始すると、コンピューターがシャットダウンします。PSU 電源ボタンをオフにして、この状態で少なくとも 30 秒間維持してからオンにしない限り、ケース ボタンから開くことはできません。この状況の原因を突き止めようとしています。

私のシステムの概要は次のとおりです。

  • Linux (フェドラ)
  • マザーボード: ギガバイト GA-970A-UD3
  • Nvidia Gtx 1070 (GPU タスク用)
  • Radeon HD 7850 (標準用途)
  • 700W 電源ユニット

これまでに試したことのリストは次のとおりです。

  • CPU負荷テストをしましたが、シャットダウンしません
  • AMD GPUを取り外しましたが、それでもシャットダウンします
  • Nvidia GPUに短時間軽い計算をさせてもシャットダウンしない
  • 重い計算を行うと、起動後すぐにシャットダウンします
  • NvidiaのGPUの温度をチェックしましたが、最大55℃くらいまで上昇してもシャットダウンします。
  • 私は手動でNvidia GPUファン速度を%80に設定しました。特定のタスクが通常よりも少し長く実行されるため、これは役に立ったようですが、シャットダウンを防ぐことはできませんでした。
  • PSUの疲労を軽減するために余分なHDDやファンを取り外しましたが、まったく効果がありませんでした
  • 追加のPSUを使用して追加2psuしかし、依然としてシャットダウン
  • CPU温度が45度程度でも、Nvidia GPUが計算を開始するとシャットダウンします。
  • 計算ソフトウェアを完全に変更しましたが、シャットダウンしてしまいます
  • Nvidiaドライバーを更新しましたが、効果はありませんでした
  • ハードディスクの読み取りプロセスを分離するためにランダムな計算を試みましたが、それでもシャットダウンします
  • OSを再インストールしましたが、問題は解決しません
  • マザーボードをチェックしましたが焼け跡はありませんでした

何か提案はありますか? この問題の根本的な原因は何でしょうか?

ありがとう。

答え1

CPU の温度はどのくらいですか? サーマル コンパウンドの不適切な使用 (例: CPU クーラーが不十分または位置ずれしている) は、過熱により同じ問題を引き起こす可能性があります。最後に確認すべきことは、電源です。最近、負荷 (ゲーム) がかかると電源が故障し、システムが再起動しますが、ゲームをしていないときは何時間も動作していました。最初に確認する最も安価で簡単な方法は PSU です。それでも改善されない場合は、CPU のサーマル コンパウンドをやり直し、CPU クーラーが適切に取り付けられていることを確認してください。

答え2

Nvidia GPUのタスク実行中のクロック周波数を調べたところ、実際に仕様の最大値を超えているしたがって、P8 などの低い状態ではシャットダウンしませんが、このオーバークロックされた周波数により、高い状態では動作しなくなります。

Nvidia GPU のクロック周波数を制限することはできません。ただし、消費電力を制限することで動作させることはできましたが、実行速度が 20% 低下するという代償がありました。

指示:

nvidia-smi --persistence-mode=1
nvidia-smi --power-limit=$POWER_LIMIT

関連情報