Конфигурация раздела SLURM: приостановка и повторная постановка в очередь

Конфигурация раздела SLURM: приостановка и повторная постановка в очередь

Я немного борюсь с настройкой нашего сервера SLURM. Я хотел иметь несколько очередей (разделов), чтобы короткие очереди имели более высокий приоритет, и задания могли бы входить немедленно, приостанавливая или повторно ставя в очередь задания с более низким приоритетом.

Идея состоит в том, чтобы иметь 4 очереди:

  • infinite: Бесконечное время заданий. Все узлы в очереди. Самый низкий приоритет. Если заданию в очереди с более высоким приоритетом требуется какой-либо узел, повторно поставьте задание в очередь.
  • Пакет: 24-часовые задания. Все узлы в. Приоритет выше, чем указано выше. Если заданию в очереди с более высоким приоритетом требуется какой-либо узел, поставьте задание в очередь повторно.
  • short: 4-часовые задания. 3 узла в (совместно с предыдущими разделами). Приоритет выше, чем указано выше. Если заданию в очереди с более высоким приоритетом требуется какой-либо узел, приостановить задание.
  • cpupower: 1 час заданий. 1 узел (лучший в нашей ферме и общий с предыдущими разделами). Наивысший приоритет. Задания в эту очередь должны поступать, если только заданий такого типа не слишком много.

Прочитав руководство, я подумал, что следующее сработает, но задания никогда не приостанавливаются и не ставятся в очередь повторно.

PartitionName=infinite Nodes=ALL              Default=NO  MaxTime=INFINITE Priority=10 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=batch    Nodes=ALL              Default=YES MaxTime=24:00:00 Priority=20 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=short    Nodes=node[001,002,0032] Default=NO  MaxTime=4:00:00  Priority=30 OverSubscribe=FORCE:1 PreemptMode=suspend State=UP
PartitionName=cpupower Nodes=node003           Default=NO  MaxTime=1:00:00  Priority=40 OverSubscribe=NO      PreemptMode=off     State=UP

Может быть, нужно что-то еще?

Связанный контент