
Estou com um pouco de dificuldade para configurar nosso servidor SLURM. Eu queria ter várias filas (partições) para que as filas curtas tivessem maior prioridade e os jobs pudessem entrar imediatamente suspendendo ou reenfileirando os jobs de menor prioridade.
A ideia é ter 4 filas:
- infinito: trabalhos de tempo infinito. Todos os nós incluídos. Prioridade mais baixa. Se o trabalho em uma fila de prioridade mais alta precisar de algum nó, coloque-o novamente na fila.
- lote: trabalhos de 24 horas. Todos os nós inseridos. Prioridade maior que acima. Se o trabalho em uma fila de prioridade mais alta precisar de algum nó, coloque-o novamente na fila.
- curto: trabalhos de 4 horas. 3 nós em (compartilhados com partições anteriores). Prioridade maior que acima. Se o trabalho em uma fila de prioridade mais alta precisar de algum nó, suspenda o trabalho.
- cpupower: trabalhos de 1 hora. 1 nó (o melhor em nosso farm e compartilhado com partições anteriores). Prioridade máxima. Os trabalhos nesta fila devem entrar, a menos que haja muitos trabalhos deste tipo.
Olhando o manual, pensei que o seguinte funcionaria, mas os trabalhos nunca são suspensos ou recolocados na fila.
PartitionName=infinite Nodes=ALL Default=NO MaxTime=INFINITE Priority=10 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=batch Nodes=ALL Default=YES MaxTime=24:00:00 Priority=20 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=short Nodes=node[001,002,0032] Default=NO MaxTime=4:00:00 Priority=30 OverSubscribe=FORCE:1 PreemptMode=suspend State=UP
PartitionName=cpupower Nodes=node003 Default=NO MaxTime=1:00:00 Priority=40 OverSubscribe=NO PreemptMode=off State=UP
Talvez haja algo mais necessário?