Estou tentando usar minha GPU Nvidia para fins científicos. Porém depois de um tempo iniciei um processo para esta GPU, meu computador desligou. Ele não pode ser aberto a partir do botão da caixa, a menos que o botão liga/desliga da PSU seja desligado e permaneça neste estado por pelo menos 30 segundos e depois ligado. Estou tentando identificar o motivo desta situação.
A visão geral do meu sistema é:
- Linux (Fedora)
- Placa-mãe: Gigabyte GA-970A-UD3
- Nvidia Gtx 1070 (para tarefas de GPU)
- Radeon HD 7850 (para propósitos padrão)
- Fonte de alimentação de 700 W
Aqui está uma lista de coisas que tentei até agora:
- Fiz um teste de carga da CPU e ela não desliga
- Eu removi a GPU AMD, ela ainda desliga
- Ele não desliga se eu fizer um cálculo leve na GPU Nvidia por um curto período de tempo
- Se eu fizer cálculos pesados, ele será desligado logo após o início
- Eu verifiquei a temperatura da GPU da Nvidia e até ela flutua no máximo. por volta de 55 C, ele desliga
- Defino manualmente a velocidade do ventilador da GPU Nvidia para% 80. Pareceu ajudar porque determinada tarefa durou um pouco mais do que o normal, mas não impediu o desligamento
- Removi HDD ou ventiladores extras para deixar a PSU menos cansada, não ajudou em nada
- Eu adicionei PSU extra usandoadd2psuno entanto, ainda está desligado
- Mesmo a temperatura da CPU está em torno de 45, ela desliga se a GPU Nvidia começar a fazer cálculos
- Mudei meu software de cálculo completamente, mas ele desliga
- Atualizei o driver da Nvidia e isso não ajudou
- Tentei cálculos aleatórios para isolar o processo de leitura do disco rígido, mas ele ainda desliga
- Reinstalei o SO mas o problema persiste
- Verifiquei a placa-mãe, mas não há marcas de queimadura
Quais são as suas sugestões? Qual pode ser a causa raiz disso?
Obrigado.
Responder1
Qual está a temperatura da sua CPU? O uso inadequado de pasta térmica, por exemplo: cooler de CPU insuficiente ou desalinhado pode causar o mesmo problema devido ao superaquecimento e uma última coisa a verificar seria sua fonte de alimentação. Recentemente, tive uma que estava falhando sob carga (jogos) e reinicializaria meu sistema mas quando eu não estava jogando, durava horas. O mais barato e fácil de verificar primeiro seria a fonte de alimentação, se ainda não houver alívio, tente refazer a pasta térmica da CPU e certifique-se de que o cooler da CPU esteja encaixado corretamente.
Responder2
Eu inspecionei as frequências de clock durante a execução de tarefas na GPU Nvidia e descobri querealmente excede o máximo da especificação. Portanto, em alguns estados mais baixos, como P8, ele não desliga, mas essa frequência com overclock impede que ele funcione em estados mais altos.
Não consigo limitar a frequência do clock da GPU Nvidia. No entanto, consegui fazê-lo funcionar limitando o consumo de energia, mas com o custo de 20% de velocidade de execução relativamente mais lenta.
Comando:
nvidia-smi --persistence-mode=1
nvidia-smi --power-limit=$POWER_LIMIT