
SLURM 서버를 구성하는 데 약간의 어려움을 겪고 있습니다. 나는 짧은 대기열의 우선순위가 더 높고 작업이 우선순위가 낮은 작업을 일시 중단하거나 다시 대기열에 즉시 입력할 수 있도록 여러 개의 대기열(파티션)을 갖고 싶었습니다.
아이디어는 4개의 대기열을 갖는 것입니다.
- 무한: 무한한 시간의 직업. 모든 노드가 들어있습니다. 우선순위가 가장 낮습니다. 우선순위가 더 높은 대기열의 작업에 일부 노드가 필요한 경우 작업을 다시 대기열에 넣습니다.
- 배치: 24시간 작업. 모든 노드가 포함됩니다. 위보다 우선순위가 높습니다. 우선순위가 더 높은 대기열의 작업에 일부 노드가 필요한 경우 작업을 다시 대기열에 넣습니다.
- 짧게: 4시간 일. 노드 3개(이전 파티션과 공유) 위보다 우선순위가 높습니다. 우선순위가 더 높은 대기열의 작업에 일부 노드가 필요한 경우 작업을 일시 중지합니다.
- cpupower: 1시간 작업. 노드 1개(우리 팜에서 가장 좋은 노드이며 이전 파티션과 공유됨) 가장 높은 우선순위. 이러한 종류의 작업이 너무 많지 않는 한 이 대기열에 대한 작업이 입력되어야 합니다.
매뉴얼을 보고 다음과 같이 하면 될 것이라고 생각했지만 작업이 일시 중지되거나 다시 대기열에 추가되는 일은 없습니다.
PartitionName=infinite Nodes=ALL Default=NO MaxTime=INFINITE Priority=10 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=batch Nodes=ALL Default=YES MaxTime=24:00:00 Priority=20 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=short Nodes=node[001,002,0032] Default=NO MaxTime=4:00:00 Priority=30 OverSubscribe=FORCE:1 PreemptMode=suspend State=UP
PartitionName=cpupower Nodes=node003 Default=NO MaxTime=1:00:00 Priority=40 OverSubscribe=NO PreemptMode=off State=UP
어쩌면 다른 것이 필요한 것일까요?