Nós Slurm na AWS configurados para serem drenados na inicialização

Nós Slurm na AWS configurados para serem drenados na inicialização

Estou trabalhando para configurar o slurm em um cluster AWS criado com CloudFormation. No momento da inicialização, alguns dos nós são configurados para um estado de "drenagem", com o motivo declarado sendo "Soquete baixoessencialcontagem de threads". No entanto, todos os nós no cluster são do mesmo tipo de instância EC2, têm o mesmo arquivo slurm.conf instalado e vêm da mesma AMI. SOMENTE ALGUNS nós terminam no estado "drenar", e não vejo nenhum padrão nisso. Depois de atualizar manualmente o estado dos nós "drenar" para "continuar", eles ficam disponíveis para processar tarefas.

ubuntu@ip-10-0-0-10:~$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
compute*     up   infinite      2  drain ip-10-0-0-10,node1
compute*     up   infinite      1   idle node2

ubuntu@ip-10-0-0-10:~$ scontrol show node node1
NodeName=node1 Arch=x86_64 CoresPerSocket=1
   CPUAlloc=0 CPUErr=0 CPUTot=4 CPULoad=0.40 Features=(null)
   Gres=(null)
   NodeAddr=node1 NodeHostName=node1 Version=15.08
   OS=Linux RealMemory=1 AllocMem=0 FreeMem=15062 Sockets=4 Boards=1
   State=IDLE+DRAIN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A
   BootTime=2019-08-19T21:46:44 SlurmdStartTime=2019-08-19T21:48:36
   CapWatts=n/a
   CurrentWatts=0 LowestJoules=0 ConsumedJoules=0
   ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s
   Reason=Low socket*core*thread count, Low CPUs [slurm@2019-08-19T21:47:06]

ubuntu@ip-10-0-0-10:~$ sudo scontrol update nodename=node1,ip-10-0-0-10 state=RESUME

ubuntu@ip-10-0-0-10:~$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
compute*     up   infinite      3   idle ip-10-0-0-10,node[1-2]

Responder1

Tente definir "ReturnToService = 2" em slurm.conf se ainda não estiver definido. Em seguida, reinicie os serviços slurm. Aqui, o valor de 2 significa

Um nó DOWN ficará disponível para uso após o registro com uma configuração válida. O nó pode ter sido desativado por qualquer motivo. Um nó se registra com uma configuração válida se sua memória, GRES, contagem de CPU, etc. forem iguais ou maiores que os valores configurados em slurm.conf. (Desativado em sistemas Cray ALPS.)

O valor padrão é 0.

Fontehttps://slurm.schedmd.com/slurm.conf.html

informação relacionada