Kann ich veraltete, zugewiesene GRES auf einem Slurm-Knoten freigeben?

Kann ich veraltete, zugewiesene GRES auf einem Slurm-Knoten freigeben?

Gibt es eine Möglichkeit, veraltete zugewiesene GRES in Slurm zu löschen?

Ich habe einen Knoten, dem 4 GPUs zugewiesen sind, während auf dem Knoten keine Jobs ausgeführt werden. Durch einen Neustart des Knotens werden die GPUs nicht freigegeben.

user@control1:~$ scontrol show node node2
NodeName=node2 Arch=x86_64 CoresPerSocket=64
   CPUAlloc=0 CPUTot=256 CPULoad=0.05
   AvailableFeatures=(null)
   ActiveFeatures=(null)
   Gres=gpu:tesla:8
   NodeAddr=node2 NodeHostName=node2 Version=21.08.5
   OS=Linux 5.15.0-83-generic #92-Ubuntu SMP Mon Aug 14 09:30:42 UTC 2023
   RealMemory=1025596 AllocMem=0 FreeMem=1025887 Sockets=2 Boards=1
   State=IDLE ThreadsPerCore=2 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A
   Partitions=DEFAULT
   BootTime=2023-09-19T12:58:23 SlurmdStartTime=2023-09-19T12:59:06
   LastBusyTime=2023-09-19T12:59:07
   CfgTRES=cpu=256,mem=1025596M,billing=256,gres/gpu=8,gres/gpu:tesla=8
   AllocTRES=gres/gpu=4
   CapWatts=n/a
   CurrentWatts=0 AveWatts=0
   ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s

user@control1:~$ squeue -w node2 --state=all
   JOBID     NAME     USER    STATE         TIME        QOS PRIORITY   TIME_LIMIT NODELIST(REASON)

Das Problem trat erneut auf, diesmal wurde die Zuordnung durch die Abschaltzeit nicht entfernt. Ich habe die Akzeptanz aus meiner Antwort entfernt, da dies nicht die „Lösung“ zu sein scheint.

Antwort1

Ich weiß nicht warum, aber heute morgen war die Zuordnung weg. Der Knoten wurde über Nacht ausgeschaltet, um Energie zu sparen (clusterweite Konfiguration), ansonsten habe ich nichts an der Konfiguration geändert.

user@control1:~$ scontrol show node node2
NodeName=node2 Arch=x86_64 CoresPerSocket=64
   CPUAlloc=0 CPUTot=256 CPULoad=0.62
   AvailableFeatures=(null)
   ActiveFeatures=(null)
   Gres=gpu:tesla:8
   NodeAddr=node2 NodeHostName=node2 Version=21.08.5
   OS=Linux 5.15.0-83-generic #92-Ubuntu SMP Mon Aug 14 09:30:42 UTC 2023
   RealMemory=1025596 AllocMem=0 FreeMem=1025777 Sockets=2 Boards=1
   State=IDLE ThreadsPerCore=2 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A
   Partitions=DEFAULT
   BootTime=2023-09-20T07:02:31 SlurmdStartTime=2023-09-20T07:03:14
   LastBusyTime=2023-09-20T07:09:02
   CfgTRES=cpu=256,mem=1025596M,billing=256,gres/gpu=8,gres/gpu:tesla=8
   AllocTRES=
   CapWatts=n/a
   CurrentWatts=0 AveWatts=0
   ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s

verwandte Informationen