Los nodos Slurm en AWS se agotan en el arranque

Los nodos Slurm en AWS se agotan en el arranque

Estoy trabajando para configurar slurm en un clúster de AWS creado con CloudFormation. En el momento del arranque, algunos de los nodos se configuran en un estado de "drenaje", y el motivo indicado es "Bajo nivel de socket".centronúmero de subprocesos". Sin embargo, todos los nodos en el clúster son del mismo tipo de instancia EC2, tienen el mismo archivo slurm.conf instalado y provienen de la misma AMI. SÓLO ALGUNOS de los nodos terminan en el estado de "drenaje", y no veo ningún patrón. Después de actualizar manualmente el estado de los nodos de "drenaje" para "reanudar", quedan disponibles para procesar tareas. ¿Alguien ha visto esto antes?

ubuntu@ip-10-0-0-10:~$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
compute*     up   infinite      2  drain ip-10-0-0-10,node1
compute*     up   infinite      1   idle node2

ubuntu@ip-10-0-0-10:~$ scontrol show node node1
NodeName=node1 Arch=x86_64 CoresPerSocket=1
   CPUAlloc=0 CPUErr=0 CPUTot=4 CPULoad=0.40 Features=(null)
   Gres=(null)
   NodeAddr=node1 NodeHostName=node1 Version=15.08
   OS=Linux RealMemory=1 AllocMem=0 FreeMem=15062 Sockets=4 Boards=1
   State=IDLE+DRAIN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A
   BootTime=2019-08-19T21:46:44 SlurmdStartTime=2019-08-19T21:48:36
   CapWatts=n/a
   CurrentWatts=0 LowestJoules=0 ConsumedJoules=0
   ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s
   Reason=Low socket*core*thread count, Low CPUs [slurm@2019-08-19T21:47:06]

ubuntu@ip-10-0-0-10:~$ sudo scontrol update nodename=node1,ip-10-0-0-10 state=RESUME

ubuntu@ip-10-0-0-10:~$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
compute*     up   infinite      3   idle ip-10-0-0-10,node[1-2]

Respuesta1

Intente configurar "ReturnToService=2" en slurm.conf si aún no está configurado. Luego reinicie los servicios de slurm. Aquí, el valor de 2 significa

Un nodo DOWN estará disponible para su uso al registrarse con una configuración válida. El nodo podría haberse desactivado por cualquier motivo. Un nodo se registra con una configuración válida si su memoria, GRES, recuento de CPU, etc. son iguales o mayores que los valores configurados en slurm.conf. (Deshabilitado en los sistemas Cray ALPS).

El valor predeterminado es 0.

Fuentehttps://slurm.schedmd.com/slurm.conf.html

información relacionada