Verteilt ein nicht mehr ausgeführter Prozess noch Ressourcen im System?

Verteilt ein nicht mehr ausgeführter Prozess noch Ressourcen im System?

Ich habe eine Produktionsmaschine (Ubuntu 18.04), die Prozesse in der GPU mit Nvidia ausführt. Ein bestimmter Prozess hat Speicher zugewiesen und ist jetzt nicht mehr funktionsfähig, wodurch die GPUs im Grunde unbrauchbar werden.

ps -o ppid= -p

Gibt eins zurück, was bedeutet, dass PID=1 das übergeordnete Element meines nicht mehr existierenden Prozesses ist und ich ihn daher nicht beenden kann.

nvidia-smi zeigt, dass dieser Prozess viel Speicher in den GPUs zugewiesen hat. Ich denke also, ich kann verwenden

nvidia-smi --gpu-reset

um die Ressourcen freizugeben. Wird der Kindprozess Probleme verursachen? Kann er „sehen“, dass die Ressourcen, die er zugewiesen hat, nicht mehr verfügbar sind?

Im Wesentlichen: Ist das in irgendeiner Weise gefährlich?

Antwort1

Mit nvidia-smi --gpu-reset wird die GPU zurückgesetzt und alle zugewiesenen Ressourcen, einschließlich Speicher, freigegeben, die vom nicht mehr aktiven Prozess belegt sind. Dieser Befehl kann jedoch nur verwendet werden, wenn die GPU im Leerlauf ist, d. h. wenn keine anderen aktiven Prozesse die GPU verwenden.

Wenn Ihre GPU von anderen aktiven Prozessen verwendet wird, kann der Befehl „--gpu-reset“ fehlschlagen oder unbeabsichtigte Nebenwirkungen verursachen, z. B. die Beendigung dieser Prozesse oder deren Fehlfunktion aufgrund des plötzlichen Verlusts von GPU-Ressourcen.

Da der übergeordnete Prozess des nicht mehr aktiven Prozesses PID=1 ist, ist es unwahrscheinlich, dass er weitere Probleme verursacht. Wenn Sie die GPU zurücksetzen, werden die von ihr zugewiesenen Ressourcen freigegeben und der nicht mehr aktive Prozess kann sie weder sehen noch verwenden.

Die Verwendung von nvidia-smi --gpu-reset ist im Allgemeinen sicher, solange keine anderen Prozesse aktiv die GPU verwenden. Wenn andere Prozesse die GPU verwenden, sollten Sie versuchen, diese Prozesse ordnungsgemäß zu stoppen, bevor Sie die GPU zurücksetzen. Darüber hinaus ist es eine gute Idee, Ihr System nach dem Zurücksetzen der GPU zu überwachen, um sicherzustellen, dass keine unerwarteten Probleme auftreten.

Es kommt häufig vor, dass Sie den Computer neu starten müssen, wenn er eingefroren ist, da das Kernelmodul wahrscheinlich hängen bleibt und nicht einmal auf das Beenden von Prozessen reagiert, die die GPU verwenden

verwandte Informationen