
¿Hay alguna forma de borrar el GRES asignado obsoleto en Slurm?
Tengo un nodo donde se asignan 4 GPU mientras no se ejecuta ningún trabajo en el nodo. Reiniciar el nodo no libera las GPU.
user@control1:~$ scontrol show node node2
NodeName=node2 Arch=x86_64 CoresPerSocket=64
CPUAlloc=0 CPUTot=256 CPULoad=0.05
AvailableFeatures=(null)
ActiveFeatures=(null)
Gres=gpu:tesla:8
NodeAddr=node2 NodeHostName=node2 Version=21.08.5
OS=Linux 5.15.0-83-generic #92-Ubuntu SMP Mon Aug 14 09:30:42 UTC 2023
RealMemory=1025596 AllocMem=0 FreeMem=1025887 Sockets=2 Boards=1
State=IDLE ThreadsPerCore=2 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A
Partitions=DEFAULT
BootTime=2023-09-19T12:58:23 SlurmdStartTime=2023-09-19T12:59:06
LastBusyTime=2023-09-19T12:59:07
CfgTRES=cpu=256,mem=1025596M,billing=256,gres/gpu=8,gres/gpu:tesla=8
AllocTRES=gres/gpu=4
CapWatts=n/a
CurrentWatts=0 AveWatts=0
ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s
user@control1:~$ squeue -w node2 --state=all
JOBID NAME USER STATE TIME QOS PRIORITY TIME_LIMIT NODELIST(REASON)
El problema volvió a ocurrir, esta vez el tiempo de apagado no eliminó la asignación. Eliminé la aceptación de mi respuesta porque no parece ser la "solución".
Respuesta1
No sé por qué, pero esta mañana se acabó la asignación. El nodo se apagó durante la noche para conservar energía (configuración de todo el clúster), aparte de eso, no cambié nada en la configuración.
user@control1:~$ scontrol show node node2
NodeName=node2 Arch=x86_64 CoresPerSocket=64
CPUAlloc=0 CPUTot=256 CPULoad=0.62
AvailableFeatures=(null)
ActiveFeatures=(null)
Gres=gpu:tesla:8
NodeAddr=node2 NodeHostName=node2 Version=21.08.5
OS=Linux 5.15.0-83-generic #92-Ubuntu SMP Mon Aug 14 09:30:42 UTC 2023
RealMemory=1025596 AllocMem=0 FreeMem=1025777 Sockets=2 Boards=1
State=IDLE ThreadsPerCore=2 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A
Partitions=DEFAULT
BootTime=2023-09-20T07:02:31 SlurmdStartTime=2023-09-20T07:03:14
LastBusyTime=2023-09-20T07:09:02
CfgTRES=cpu=256,mem=1025596M,billing=256,gres/gpu=8,gres/gpu:tesla=8
AllocTRES=
CapWatts=n/a
CurrentWatts=0 AveWatts=0
ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s