Я пытаюсь использовать свой графический процессор Nvidia для научных целей. Однако через некоторое время я запустил процесс для этого графического процессора, и мой компьютер выключился. Его нельзя открыть с помощью кнопки корпуса, пока кнопка питания блока питания не выключится и не останется в этом состоянии по крайней мере 30 секунд, а затем не включится. Я пытаюсь определить причину этой ситуации.
Обзор моей системы:
- Linux (федора)
- Материнская плата: Gigabyte GA-970A-UD3
- Nvidia Gtx 1070 (для задач GPU)
- Radeon HD 7850 (для стандартных целей)
- Блок питания 700 Вт
Вот список того, что я уже попробовал:
- Я сделал тест нагрузки на процессор, и он не выключается.
- Я удалил AMD GPU, он все равно выключается
- Он не выключается, если я даю легкий расчет графическому процессору Nvidia в течение короткого периода времени.
- Если я делаю интенсивные вычисления, он выключается вскоре после запуска.
- Я проверил температуру графического процессора Nvidia, и даже если она колеблется около 55 °C, она выключается.
- Я вручную установил скорость вентилятора Nvidia GPU на %80. Это, похоже, помогло, потому что данная задача выполнялась немного дольше обычного, но это не предотвратило выключение
- Я удалил лишний жесткий диск или вентиляторы, чтобы блок питания меньше уставал, но это вообще не помогло.
- Я добавил дополнительный блок питания, используяadd2psuоднако все еще отключается
- Даже если температура процессора около 45, он выключается, если графический процессор Nvidia начинает выполнять вычисления.
- Я полностью изменил свое программное обеспечение для расчетов, однако оно выключается
- Я обновил драйвер Nvidia, но это не помогло.
- Я пробовал случайные вычисления, чтобы изолировать процесс чтения жесткого диска, но он все равно отключается
- Я переустановил ОС, но проблема осталась
- Я проверил материнскую плату, но никаких следов ожога нет.
Каковы ваши предложения? Что может быть основной причиной этого?
Спасибо.
решение1
Каковы температуры вашего процессора? Неправильное использование термопасты, например: недостаточное или неправильное расположение кулера процессора может вызвать ту же проблему из-за перегрева, и последнее, что нужно проверить, это ваш блок питания, у меня недавно был один, который выходил из строя под нагрузкой (игры) и перезагружал мою систему, но когда я не играл, он работал часами. Дешевле и проще всего сначала проверить блок питания, если все равно нет облегчения, то попробуйте переделать термопасту на процессоре и убедитесь, что ваш кулер процессора правильно установлен.
решение2
Я проверил тактовые частоты во время выполнения задачи в графическом процессоре Nvidia и обнаружил, чтодействительно превышает максимально допустимый. Таким образом, в некоторых более низких состояниях, таких как P8, он не отключается, но эта разогнанная частота не позволяет ему работать в более высоких состояниях.
Я не могу ограничить тактовую частоту графического процессора Nvidia. Однако мне удалось заставить его работать, ограничив его энергопотребление, но за счет относительного снижения скорости выполнения на 20%.
Команда:
nvidia-smi --persistence-mode=1
nvidia-smi --power-limit=$POWER_LIMIT