SLURM 파티션 구성: 일시중단 및 다시 큐

SLURM 파티션 구성: 일시중단 및 다시 큐

SLURM 서버를 구성하는 데 약간의 어려움을 겪고 있습니다. 나는 짧은 대기열의 우선순위가 더 높고 작업이 우선순위가 낮은 작업을 일시 중단하거나 다시 대기열에 즉시 입력할 수 있도록 여러 개의 대기열(파티션)을 갖고 싶었습니다.

아이디어는 4개의 대기열을 갖는 것입니다.

  • 무한: 무한한 시간의 직업. 모든 노드가 들어있습니다. 우선순위가 가장 낮습니다. 우선순위가 더 높은 대기열의 작업에 일부 노드가 필요한 경우 작업을 다시 대기열에 넣습니다.
  • 배치: 24시간 작업. 모든 노드가 포함됩니다. 위보다 우선순위가 높습니다. 우선순위가 더 높은 대기열의 작업에 일부 노드가 필요한 경우 작업을 다시 대기열에 넣습니다.
  • 짧게: 4시간 일. 노드 3개(이전 파티션과 공유) 위보다 우선순위가 높습니다. 우선순위가 더 높은 대기열의 작업에 일부 노드가 필요한 경우 작업을 일시 중지합니다.
  • cpupower: 1시간 작업. 노드 1개(우리 팜에서 가장 좋은 노드이며 이전 파티션과 공유됨) 가장 높은 우선순위. 이러한 종류의 작업이 너무 많지 않는 한 이 대기열에 대한 작업이 입력되어야 합니다.

매뉴얼을 보고 다음과 같이 하면 될 것이라고 생각했지만 작업이 일시 중지되거나 다시 대기열에 추가되는 일은 없습니다.

PartitionName=infinite Nodes=ALL              Default=NO  MaxTime=INFINITE Priority=10 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=batch    Nodes=ALL              Default=YES MaxTime=24:00:00 Priority=20 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=short    Nodes=node[001,002,0032] Default=NO  MaxTime=4:00:00  Priority=30 OverSubscribe=FORCE:1 PreemptMode=suspend State=UP
PartitionName=cpupower Nodes=node003           Default=NO  MaxTime=1:00:00  Priority=40 OverSubscribe=NO      PreemptMode=off     State=UP

어쩌면 다른 것이 필요한 것일까요?

관련 정보