Configuración de partición SLURM: suspender y poner en cola

Configuración de partición SLURM: suspender y poner en cola

Estoy luchando un poco para configurar nuestro servidor SLURM. Quería tener varias colas (particiones) para que las colas cortas tuvieran mayor prioridad y los trabajos pudieran ingresar inmediatamente suspendiendo o volviendo a poner en cola los trabajos de menor prioridad.

La idea es tener 4 colas:

  • infinito: Trabajos de tiempo infinito. Todos los nodos dentro. Prioridad más baja. Si el trabajo en una cola de mayor prioridad necesita algún nodo, vuelva a poner en cola el trabajo.
  • lote: trabajos de 24 horas. Todos los nodos dentro. Prioridad mayor que la anterior. Si el trabajo en una cola de mayor prioridad necesita algún nodo, vuelva a poner en cola el trabajo.
  • Corto: trabajos de 4 horas. 3 nodos (compartidos con particiones anteriores). Prioridad mayor que la anterior. Si el trabajo en una cola de mayor prioridad necesita algún nodo, suspenda el trabajo.
  • cpupower: trabajos de 1 hora. 1 nodo (el mejor de nuestra granja y compartido con particiones anteriores). Más alta prioridad. Los trabajos de esta cola deben ingresar a menos que haya demasiados trabajos de este tipo.

Al mirar el manual pensé que lo siguiente funcionaría, pero los trabajos nunca se suspenden ni se vuelven a poner en cola.

PartitionName=infinite Nodes=ALL              Default=NO  MaxTime=INFINITE Priority=10 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=batch    Nodes=ALL              Default=YES MaxTime=24:00:00 Priority=20 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=short    Nodes=node[001,002,0032] Default=NO  MaxTime=4:00:00  Priority=30 OverSubscribe=FORCE:1 PreemptMode=suspend State=UP
PartitionName=cpupower Nodes=node003           Default=NO  MaxTime=1:00:00  Priority=40 OverSubscribe=NO      PreemptMode=off     State=UP

¿Quizás se necesita algo más?

información relacionada