SLURM 分割區配置:掛起並重新排隊

SLURM 分割區配置:掛起並重新排隊

我在配置我們的 SLURM 伺服器時遇到了一些困難。我想要有幾個佇列(分區),以便短隊列具有更高的優先權,並且作業可以立即暫停或重新排隊較低優先權的作業。

這個想法是有 4 個隊列:

  • 無限:無限時間的工作。所有節點都在。如果較高優先權佇列中的作業需要某個節點,則重新排程作業。
  • 批次:24小時工作。所有節點都在。如果較高優先權佇列中的作業需要某個節點,則重新排程作業。
  • 簡短:4小時的工作。 3 個節點(與先前的分區共用)。優先權高於上面。如果較高優先權佇列中的作業需要某個節點,則掛起作業。
  • cpupower:1小時工作。 1 個節點(我們場中最好的一個,並與以前的分區共享)。最高優先級。除非此類作業太多,否則應進入此佇列。

透過查看手冊,我認為以下內容可行,但作業永遠不會暫停或重新排隊。

PartitionName=infinite Nodes=ALL              Default=NO  MaxTime=INFINITE Priority=10 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=batch    Nodes=ALL              Default=YES MaxTime=24:00:00 Priority=20 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=short    Nodes=node[001,002,0032] Default=NO  MaxTime=4:00:00  Priority=30 OverSubscribe=FORCE:1 PreemptMode=suspend State=UP
PartitionName=cpupower Nodes=node003           Default=NO  MaxTime=1:00:00  Priority=40 OverSubscribe=NO      PreemptMode=off     State=UP

也許還需要其他東西?

相關內容