
Estoy luchando un poco para configurar nuestro servidor SLURM. Quería tener varias colas (particiones) para que las colas cortas tuvieran mayor prioridad y los trabajos pudieran ingresar inmediatamente suspendiendo o volviendo a poner en cola los trabajos de menor prioridad.
La idea es tener 4 colas:
- infinito: Trabajos de tiempo infinito. Todos los nodos dentro. Prioridad más baja. Si el trabajo en una cola de mayor prioridad necesita algún nodo, vuelva a poner en cola el trabajo.
- lote: trabajos de 24 horas. Todos los nodos dentro. Prioridad mayor que la anterior. Si el trabajo en una cola de mayor prioridad necesita algún nodo, vuelva a poner en cola el trabajo.
- Corto: trabajos de 4 horas. 3 nodos (compartidos con particiones anteriores). Prioridad mayor que la anterior. Si el trabajo en una cola de mayor prioridad necesita algún nodo, suspenda el trabajo.
- cpupower: trabajos de 1 hora. 1 nodo (el mejor de nuestra granja y compartido con particiones anteriores). Más alta prioridad. Los trabajos de esta cola deben ingresar a menos que haya demasiados trabajos de este tipo.
Al mirar el manual pensé que lo siguiente funcionaría, pero los trabajos nunca se suspenden ni se vuelven a poner en cola.
PartitionName=infinite Nodes=ALL Default=NO MaxTime=INFINITE Priority=10 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=batch Nodes=ALL Default=YES MaxTime=24:00:00 Priority=20 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=short Nodes=node[001,002,0032] Default=NO MaxTime=4:00:00 Priority=30 OverSubscribe=FORCE:1 PreemptMode=suspend State=UP
PartitionName=cpupower Nodes=node003 Default=NO MaxTime=1:00:00 Priority=40 OverSubscribe=NO PreemptMode=off State=UP
¿Quizás se necesita algo más?