Проверка первопричины выключения компьютера под нагрузкой на графический процессор

Проверка первопричины выключения компьютера под нагрузкой на графический процессор

Я пытаюсь использовать свой графический процессор Nvidia для научных целей. Однако через некоторое время я запустил процесс для этого графического процессора, и мой компьютер выключился. Его нельзя открыть с помощью кнопки корпуса, пока кнопка питания блока питания не выключится и не останется в этом состоянии по крайней мере 30 секунд, а затем не включится. Я пытаюсь определить причину этой ситуации.

Обзор моей системы:

  • Linux (федора)
  • Материнская плата: Gigabyte GA-970A-UD3
  • Nvidia Gtx 1070 (для задач GPU)
  • Radeon HD 7850 (для стандартных целей)
  • Блок питания 700 Вт

Вот список того, что я уже попробовал:

  • Я сделал тест нагрузки на процессор, и он не выключается.
  • Я удалил AMD GPU, он все равно выключается
  • Он не выключается, если я даю легкий расчет графическому процессору Nvidia в течение короткого периода времени.
  • Если я делаю интенсивные вычисления, он выключается вскоре после запуска.
  • Я проверил температуру графического процессора Nvidia, и даже если она колеблется около 55 °C, она выключается.
  • Я вручную установил скорость вентилятора Nvidia GPU на %80. Это, похоже, помогло, потому что данная задача выполнялась немного дольше обычного, но это не предотвратило выключение
  • Я удалил лишний жесткий диск или вентиляторы, чтобы блок питания меньше уставал, но это вообще не помогло.
  • Я добавил дополнительный блок питания, используяadd2psuоднако все еще отключается
  • Даже если температура процессора около 45, он выключается, если графический процессор Nvidia начинает выполнять вычисления.
  • Я полностью изменил свое программное обеспечение для расчетов, однако оно выключается
  • Я обновил драйвер Nvidia, но это не помогло.
  • Я пробовал случайные вычисления, чтобы изолировать процесс чтения жесткого диска, но он все равно отключается
  • Я переустановил ОС, но проблема осталась
  • Я проверил материнскую плату, но никаких следов ожога нет.

Каковы ваши предложения? Что может быть основной причиной этого?

Спасибо.

решение1

Каковы температуры вашего процессора? Неправильное использование термопасты, например: недостаточное или неправильное расположение кулера процессора может вызвать ту же проблему из-за перегрева, и последнее, что нужно проверить, это ваш блок питания, у меня недавно был один, который выходил из строя под нагрузкой (игры) и перезагружал мою систему, но когда я не играл, он работал часами. Дешевле и проще всего сначала проверить блок питания, если все равно нет облегчения, то попробуйте переделать термопасту на процессоре и убедитесь, что ваш кулер процессора правильно установлен.

решение2

Я проверил тактовые частоты во время выполнения задачи в графическом процессоре Nvidia и обнаружил, чтодействительно превышает максимально допустимый. Таким образом, в некоторых более низких состояниях, таких как P8, он не отключается, но эта разогнанная частота не позволяет ему работать в более высоких состояниях.

Я не могу ограничить тактовую частоту графического процессора Nvidia. Однако мне удалось заставить его работать, ограничив его энергопотребление, но за счет относительного снижения скорости выполнения на 20%.

Команда:

nvidia-smi --persistence-mode=1
nvidia-smi --power-limit=$POWER_LIMIT

Связанный контент