Inspeção de causa raiz do desligamento do computador sob carga da GPU

Inspeção de causa raiz do desligamento do computador sob carga da GPU

Estou tentando usar minha GPU Nvidia para fins científicos. Porém depois de um tempo iniciei um processo para esta GPU, meu computador desligou. Ele não pode ser aberto a partir do botão da caixa, a menos que o botão liga/desliga da PSU seja desligado e permaneça neste estado por pelo menos 30 segundos e depois ligado. Estou tentando identificar o motivo desta situação.

A visão geral do meu sistema é:

  • Linux (Fedora)
  • Placa-mãe: Gigabyte GA-970A-UD3
  • Nvidia Gtx 1070 (para tarefas de GPU)
  • Radeon HD 7850 (para propósitos padrão)
  • Fonte de alimentação de 700 W

Aqui está uma lista de coisas que tentei até agora:

  • Fiz um teste de carga da CPU e ela não desliga
  • Eu removi a GPU AMD, ela ainda desliga
  • Ele não desliga se eu fizer um cálculo leve na GPU Nvidia por um curto período de tempo
  • Se eu fizer cálculos pesados, ele será desligado logo após o início
  • Eu verifiquei a temperatura da GPU da Nvidia e até ela flutua no máximo. por volta de 55 C, ele desliga
  • Defino manualmente a velocidade do ventilador da GPU Nvidia para% 80. Pareceu ajudar porque determinada tarefa durou um pouco mais do que o normal, mas não impediu o desligamento
  • Removi HDD ou ventiladores extras para deixar a PSU menos cansada, não ajudou em nada
  • Eu adicionei PSU extra usandoadd2psuno entanto, ainda está desligado
  • Mesmo a temperatura da CPU está em torno de 45, ela desliga se a GPU Nvidia começar a fazer cálculos
  • Mudei meu software de cálculo completamente, mas ele desliga
  • Atualizei o driver da Nvidia e isso não ajudou
  • Tentei cálculos aleatórios para isolar o processo de leitura do disco rígido, mas ele ainda desliga
  • Reinstalei o SO mas o problema persiste
  • Verifiquei a placa-mãe, mas não há marcas de queimadura

Quais são as suas sugestões? Qual pode ser a causa raiz disso?

Obrigado.

Responder1

Qual está a temperatura da sua CPU? O uso inadequado de pasta térmica, por exemplo: cooler de CPU insuficiente ou desalinhado pode causar o mesmo problema devido ao superaquecimento e uma última coisa a verificar seria sua fonte de alimentação. Recentemente, tive uma que estava falhando sob carga (jogos) e reinicializaria meu sistema mas quando eu não estava jogando, durava horas. O mais barato e fácil de verificar primeiro seria a fonte de alimentação, se ainda não houver alívio, tente refazer a pasta térmica da CPU e certifique-se de que o cooler da CPU esteja encaixado corretamente.

Responder2

Eu inspecionei as frequências de clock durante a execução de tarefas na GPU Nvidia e descobri querealmente excede o máximo da especificação. Portanto, em alguns estados mais baixos, como P8, ele não desliga, mas essa frequência com overclock impede que ele funcione em estados mais altos.

Não consigo limitar a frequência do clock da GPU Nvidia. No entanto, consegui fazê-lo funcionar limitando o consumo de energia, mas com o custo de 20% de velocidade de execução relativamente mais lenta.

Comando:

nvidia-smi --persistence-mode=1
nvidia-smi --power-limit=$POWER_LIMIT

informação relacionada