
Gibt es eine Möglichkeit, veraltete zugewiesene GRES in Slurm zu löschen?
Ich habe einen Knoten, dem 4 GPUs zugewiesen sind, während auf dem Knoten keine Jobs ausgeführt werden. Durch einen Neustart des Knotens werden die GPUs nicht freigegeben.
user@control1:~$ scontrol show node node2
NodeName=node2 Arch=x86_64 CoresPerSocket=64
CPUAlloc=0 CPUTot=256 CPULoad=0.05
AvailableFeatures=(null)
ActiveFeatures=(null)
Gres=gpu:tesla:8
NodeAddr=node2 NodeHostName=node2 Version=21.08.5
OS=Linux 5.15.0-83-generic #92-Ubuntu SMP Mon Aug 14 09:30:42 UTC 2023
RealMemory=1025596 AllocMem=0 FreeMem=1025887 Sockets=2 Boards=1
State=IDLE ThreadsPerCore=2 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A
Partitions=DEFAULT
BootTime=2023-09-19T12:58:23 SlurmdStartTime=2023-09-19T12:59:06
LastBusyTime=2023-09-19T12:59:07
CfgTRES=cpu=256,mem=1025596M,billing=256,gres/gpu=8,gres/gpu:tesla=8
AllocTRES=gres/gpu=4
CapWatts=n/a
CurrentWatts=0 AveWatts=0
ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s
user@control1:~$ squeue -w node2 --state=all
JOBID NAME USER STATE TIME QOS PRIORITY TIME_LIMIT NODELIST(REASON)
Das Problem trat erneut auf, diesmal wurde die Zuordnung durch die Abschaltzeit nicht entfernt. Ich habe die Akzeptanz aus meiner Antwort entfernt, da dies nicht die „Lösung“ zu sein scheint.
Antwort1
Ich weiß nicht warum, aber heute morgen war die Zuordnung weg. Der Knoten wurde über Nacht ausgeschaltet, um Energie zu sparen (clusterweite Konfiguration), ansonsten habe ich nichts an der Konfiguration geändert.
user@control1:~$ scontrol show node node2
NodeName=node2 Arch=x86_64 CoresPerSocket=64
CPUAlloc=0 CPUTot=256 CPULoad=0.62
AvailableFeatures=(null)
ActiveFeatures=(null)
Gres=gpu:tesla:8
NodeAddr=node2 NodeHostName=node2 Version=21.08.5
OS=Linux 5.15.0-83-generic #92-Ubuntu SMP Mon Aug 14 09:30:42 UTC 2023
RealMemory=1025596 AllocMem=0 FreeMem=1025777 Sockets=2 Boards=1
State=IDLE ThreadsPerCore=2 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A
Partitions=DEFAULT
BootTime=2023-09-20T07:02:31 SlurmdStartTime=2023-09-20T07:03:14
LastBusyTime=2023-09-20T07:09:02
CfgTRES=cpu=256,mem=1025596M,billing=256,gres/gpu=8,gres/gpu:tesla=8
AllocTRES=
CapWatts=n/a
CurrentWatts=0 AveWatts=0
ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s