Configuração da partição SLURM: suspender e reenfileirar

Configuração da partição SLURM: suspender e reenfileirar

Estou com um pouco de dificuldade para configurar nosso servidor SLURM. Eu queria ter várias filas (partições) para que as filas curtas tivessem maior prioridade e os jobs pudessem entrar imediatamente suspendendo ou reenfileirando os jobs de menor prioridade.

A ideia é ter 4 filas:

  • infinito: trabalhos de tempo infinito. Todos os nós incluídos. Prioridade mais baixa. Se o trabalho em uma fila de prioridade mais alta precisar de algum nó, coloque-o novamente na fila.
  • lote: trabalhos de 24 horas. Todos os nós inseridos. Prioridade maior que acima. Se o trabalho em uma fila de prioridade mais alta precisar de algum nó, coloque-o novamente na fila.
  • curto: trabalhos de 4 horas. 3 nós em (compartilhados com partições anteriores). Prioridade maior que acima. Se o trabalho em uma fila de prioridade mais alta precisar de algum nó, suspenda o trabalho.
  • cpupower: trabalhos de 1 hora. 1 nó (o melhor em nosso farm e compartilhado com partições anteriores). Prioridade máxima. Os trabalhos nesta fila devem entrar, a menos que haja muitos trabalhos deste tipo.

Olhando o manual, pensei que o seguinte funcionaria, mas os trabalhos nunca são suspensos ou recolocados na fila.

PartitionName=infinite Nodes=ALL              Default=NO  MaxTime=INFINITE Priority=10 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=batch    Nodes=ALL              Default=YES MaxTime=24:00:00 Priority=20 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=short    Nodes=node[001,002,0032] Default=NO  MaxTime=4:00:00  Priority=30 OverSubscribe=FORCE:1 PreemptMode=suspend State=UP
PartitionName=cpupower Nodes=node003           Default=NO  MaxTime=1:00:00  Priority=40 OverSubscribe=NO      PreemptMode=off     State=UP

Talvez haja algo mais necessário?

informação relacionada