![부팅 시 배수되도록 설정된 AWS의 Slurm 노드](https://rvso.com/image/1601149/%EB%B6%80%ED%8C%85%20%EC%8B%9C%20%EB%B0%B0%EC%88%98%EB%90%98%EB%8F%84%EB%A1%9D%20%EC%84%A4%EC%A0%95%EB%90%9C%20AWS%EC%9D%98%20Slurm%20%EB%85%B8%EB%93%9C.png)
CloudFormation으로 생성된 AWS 클러스터에서 slurm을 구성하는 작업을 진행 중입니다. 부팅 시 일부 노드는 "드레인" 상태로 설정되며, 그 이유는 "낮은 소켓"입니다.핵심스레드 수". 그러나 클러스터의 모든 노드는 동일한 EC2 인스턴스 유형이고 동일한 slurm.conf 파일이 설치되어 있으며 동일한 AMI에서 나옵니다. 노드 중 일부만 "드레인" 상태가 됩니다. 패턴이 보이지 않습니다. "드레인" 노드의 상태를 "재개"로 수동으로 업데이트하면 해당 노드가 작업을 처리하는 데 사용할 수 있게 됩니다.
ubuntu@ip-10-0-0-10:~$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
compute* up infinite 2 drain ip-10-0-0-10,node1
compute* up infinite 1 idle node2
ubuntu@ip-10-0-0-10:~$ scontrol show node node1
NodeName=node1 Arch=x86_64 CoresPerSocket=1
CPUAlloc=0 CPUErr=0 CPUTot=4 CPULoad=0.40 Features=(null)
Gres=(null)
NodeAddr=node1 NodeHostName=node1 Version=15.08
OS=Linux RealMemory=1 AllocMem=0 FreeMem=15062 Sockets=4 Boards=1
State=IDLE+DRAIN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A
BootTime=2019-08-19T21:46:44 SlurmdStartTime=2019-08-19T21:48:36
CapWatts=n/a
CurrentWatts=0 LowestJoules=0 ConsumedJoules=0
ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s
Reason=Low socket*core*thread count, Low CPUs [slurm@2019-08-19T21:47:06]
ubuntu@ip-10-0-0-10:~$ sudo scontrol update nodename=node1,ip-10-0-0-10 state=RESUME
ubuntu@ip-10-0-0-10:~$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
compute* up infinite 3 idle ip-10-0-0-10,node[1-2]
답변1
아직 설정되지 않은 경우 slurm.conf에서 "ReturnToService=2"를 설정해 보세요. 그런 다음 Slurm 서비스를 다시 시작하십시오. 여기서 2의 값은
유효한 구성으로 등록하면 DOWN 노드를 사용할 수 있게 됩니다. 어떤 이유로든 노드가 DOWN으로 설정되었을 수 있습니다. 노드의 메모리, GRES, CPU 수 등이 slurm.conf에 구성된 값과 같거나 클 경우 노드는 유효한 구성으로 등록됩니다. (Cray ALPS 시스템에서는 비활성화됩니다.)
기본값은 0입니다.