Sobrecalentamiento de GPU: ajuste Nvidia GPUPerfModes o downclock: no puedo editar ninguno de ellos

Sobrecalentamiento de GPU: ajuste Nvidia GPUPerfModes o downclock: no puedo editar ninguno de ellos

Al realizar tareas intensivas (principalmente juegos, pero también cálculos de GPU relacionados con el análisis de datos científicos), mi computadora portátil se sobrecalienta y finalmente se apaga debido a que alcanza rápidamente altas temperaturas (más de 90 °C en aproximadamente tres minutos). Tengo dos GPU: una tarjeta Intel integrada que se usa de forma predeterminada en todo el sistema y una GPU discreta NVIDIA que se usa solo cuando se necesita más "potencia" (a través dePRINCIPAL). Mi GPU discreta funciona al límite pero no se sobrecalienta. Ocurre sólo cuando se utiliza la GPU NVIDIA. Así que he luchado durante varias semanas para aprender cómo hacer underclock en mi tarjeta.

Logré habilitar underclock/overclock en la configuración de nvidia usandobits geniales. Sin embargo, me enfrento principalmente a tres problemas: (i) el desplazamiento mínimo que puedo establecer es -200 MHz, lo cual no es suficiente. (ii) El overclocking tiene efecto inmediatamente en el panel powermizer de configuración de nvidia, pero solo en el P3 (que tiene los valores más altos de MHz) y el underclocking no. Finalmente, (iii) tengo 4 GPUPerfModes (0 a 3), tres de los cuales tienen los mismos valores mínimo y máximo (ver aquí):

  • 0: 139-607
  • 1: 139-1911
  • 2: 139-1911
  • 3: 139-1911

Entonces, para lidiar con el sobrecalentamiento, necesito desacelerar mi tarjeta o cambiar GPUPerfModes a valores más realistas y, digamos, mantener un nivel de rendimiento que sea satisfactorio y que no conduzca a temperaturas extremas. ¿Por qué ocurren los problemas informados anteriormente (i, ii y iii)? ¿Hay algún problema con mis archivos de configuración? ¿Ajustes? ¿Algunas ideas?

Informe de error completo de nvidia:nvidia-bug-report.log.gz(280,2KB)

Especificaciones:

  • Dell Inspiron 5480 (Optimus)
  • Sistema operativo: Arch Linux x86_64
  • Núcleo: 5.7.12-arch1-1
  • DE: GNOME 3.36.4
  • CPU: Intel i7-8565U (8) a 4.600 GHz
  • GPU: NVIDIA GeForce MX150 (controlador nvidia 450.57-6, noté el problema por primera vez en la versión del controlador  440.82-3)
  • GPU: Gráficos Intel UHD 620

Respuesta1

La administración de energía para las tarjetas NVIDIA en Linux es notoriamente mala, por lo que tu mejor opción podría ser limitar tu GPU al nivel de rendimiento más bajo.

Hay dos formas de lograrlo, ya sea un archivo de configuración de X.org al que debes agregar esto (es posible que desees reiniciar tu computadora portátil para ver si funciona):

    Option          "Coolbits" "28"
    Option          "RegistryDwords" "PowerMizerEnable=0x1; PerfLevelSrc=0x2222; PowerMizerLevel=0x3; PowerMizerDefault=0x3; PowerMizerDefaultAC=0x3"

en caso de que no funcione, cree /etc/modprobe.d/nvidia.conf

options nvidia NVreg_RegistryDwords="OverrideMaxPerf=0x1"

y reinicie ( RegistryDwordsla opción para X.org ya no será necesaria).

Tu actuación será horrible, pero las térmicas deberían ser estelares. En el futuro, haga preguntas relacionadas con NVIDIA Linux aquí:https://forums.developer.nvidia.com/c/gpu-unix-graphics/linux/148

información relacionada