Inspección de causa raíz del apagado de la computadora bajo carga de gpu

Inspección de causa raíz del apagado de la computadora bajo carga de gpu

Estoy intentando utilizar mi gpu Nvidia con fines científicos. Sin embargo, después de un tiempo comencé un proceso para esta gpu, mi computadora se apaga. No se puede abrir desde el botón de la carcasa a menos que el botón de encendido de la fuente de alimentación se apague y permanezca en este estado al menos durante 30 segundos y luego se encienda. Estoy tratando de detectar el motivo de esta situación.

La descripción general de mi sistema es:

  • Linux (fedora)
  • Placa base: Gigabyte GA-970A-UD3
  • Nvidia Gtx 1070 (para tareas de gpu)
  • Radeon HD 7850 (para fines estándar)
  • Fuente de alimentación de 700 W

Aquí hay una lista de cosas que he probado hasta ahora:

  • Hice una prueba de carga de CPU y no se apaga
  • Quité la GPU AMD, todavía se apaga
  • No se apaga si hago un cálculo ligero a la GPU Nvidia durante un corto período de tiempo.
  • Si hago cálculos pesados, se apaga poco después del inicio.
  • Revisé la temperatura de la gpu de Nvidia e incluso flota al máximo. alrededor de 55 C, se apaga
  • Configuré manualmente la velocidad del ventilador de la GPU Nvidia en %80. Pareció ayudar porque una tarea determinada se prolongó un poco más de lo habitual, pero no impidió el cierre.
  • Quité el disco duro o los ventiladores adicionales para que la fuente de alimentación se cansara menos, no ayudó en absoluto
  • Agregué PSU adicional usandoadd2psusin embargo todavía hay paradas
  • Incluso la temperatura de la CPU es de alrededor de 45, se apaga si la GPU Nvidia comienza a hacer cálculos
  • Cambié mi software de cálculo por completo pero se apaga
  • Actualicé el controlador Nvidia y esto no ayudó
  • Intenté cálculos aleatorios para aislar el proceso de lectura del disco duro pero aún así se apaga
  • Reinstalé el sistema operativo pero el problema persiste
  • Revisé la placa base pero no hay marcas de quemaduras.

¿Cuáles son tus sugerencias? ¿Cuál podría ser la causa fundamental de esto?

Gracias.

Respuesta1

¿Cuáles son las temperaturas de tu CPU? El uso inadecuado del compuesto térmico, por ejemplo: un refrigerador de CPU insuficiente o desalineado podría causar el mismo problema debido al sobrecalentamiento y una última cosa a verificar sería su fuente de alimentación. Recientemente tuve uno que fallaba bajo carga (juegos) y reiniciaba mi sistema. pero cuando no estaba jugando funcionaba durante horas. Lo más barato y fácil de verificar primero sería la fuente de alimentación, si aún no hay alivio, entonces considere rehacer el compuesto térmico en la CPU y asegúrese de que el refrigerador de su CPU esté colocado correctamente.

Respuesta2

Inspeccioné las frecuencias de reloj durante la ejecución de tareas en la GPU Nvidia y descubrí querealmente excede el máximo de especificación. Entonces, en algunos estados inferiores, como P8, no se apaga, pero esta frecuencia overclockeada impide que funcione en estados superiores.

No puedo limitar la frecuencia de reloj de la GPU Nvidia. Sin embargo, logré hacerlo funcionar limitando el consumo de energía, pero con un costo de %20 de velocidad de ejecución relativamente más lenta.

Dominio:

nvidia-smi --persistence-mode=1
nvidia-smi --power-limit=$POWER_LIMIT

información relacionada