
我在配置我們的 SLURM 伺服器時遇到了一些困難。我想要有幾個佇列(分區),以便短隊列具有更高的優先權,並且作業可以立即暫停或重新排隊較低優先權的作業。
這個想法是有 4 個隊列:
- 無限:無限時間的工作。所有節點都在。如果較高優先權佇列中的作業需要某個節點,則重新排程作業。
- 批次:24小時工作。所有節點都在。如果較高優先權佇列中的作業需要某個節點,則重新排程作業。
- 簡短:4小時的工作。 3 個節點(與先前的分區共用)。優先權高於上面。如果較高優先權佇列中的作業需要某個節點,則掛起作業。
- cpupower:1小時工作。 1 個節點(我們場中最好的一個,並與以前的分區共享)。最高優先級。除非此類作業太多,否則應進入此佇列。
透過查看手冊,我認為以下內容可行,但作業永遠不會暫停或重新排隊。
PartitionName=infinite Nodes=ALL Default=NO MaxTime=INFINITE Priority=10 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=batch Nodes=ALL Default=YES MaxTime=24:00:00 Priority=20 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=short Nodes=node[001,002,0032] Default=NO MaxTime=4:00:00 Priority=30 OverSubscribe=FORCE:1 PreemptMode=suspend State=UP
PartitionName=cpupower Nodes=node003 Default=NO MaxTime=1:00:00 Priority=40 OverSubscribe=NO PreemptMode=off State=UP
也許還需要其他東西?