¿Un proceso extinto todavía asigna recursos en el sistema?

¿Un proceso extinto todavía asigna recursos en el sistema?

Tengo una máquina de producción (Ubuntu 18.04) que ejecuta procesos en GPU usando Nvidia. Cierto proceso ha asignado memoria y ahora está inactivo, dejando las GPU básicamente inutilizables.

ps -o ppid= -p

Devuelve uno, lo que significa que PID=1 es el padre de mi proceso inactivo, por lo que no puedo eliminarlo.

nvidia-smi revela que este proceso tiene mucha memoria asignada en las GPU. Entonces creo que puedo usar

nvidia-smi --gpu-reset

para liberar los recursos. ¿El proceso hijo va a generar algún problema? ¿Puede "ver" que los recursos que ha asignado ya no están disponibles?

En esencia: ¿es esto peligroso de alguna manera?

Respuesta1

El uso de nvidia-smi --gpu-reset restablecerá la GPU y liberará todos los recursos asignados, incluida la memoria, retenidos por el proceso inactivo. Sin embargo, este comando solo se puede usar cuando la GPU está inactiva, lo que significa que ningún otro proceso activo está usando la GPU.

Si su GPU está siendo utilizada por otros procesos activos, el comando --gpu-reset podría fallar o provocar efectos secundarios no deseados, como finalizar esos procesos o provocar un mal funcionamiento debido a la pérdida repentina de recursos de la GPU.

Dado que el padre del proceso inactivo es PID=1, es poco probable que genere más problemas. Cuando reinicia la GPU, los recursos que ha asignado se liberarán y el proceso inactivo no podrá verlos ni utilizarlos.

Generalmente es seguro usar nvidia-smi --gpu-reset siempre que no haya otros procesos que utilicen activamente la GPU. Si hay otros procesos que utilizan la GPU, debe intentar detenerlos correctamente antes de restablecer la GPU. Además, es una buena idea monitorear su sistema después de restablecer la GPU para asegurarse de que no surjan problemas inesperados.

Es bastante común que necesite reiniciar la máquina si se congela, ya que probablemente el módulo del kernel se atasca y no responde ni siquiera al finalizar procesos que usan GPU.

información relacionada