![AWS 上的 Slurm 節點設定為啟動時耗盡](https://rvso.com/image/1601149/AWS%20%E4%B8%8A%E7%9A%84%20Slurm%20%E7%AF%80%E9%BB%9E%E8%A8%AD%E5%AE%9A%E7%82%BA%E5%95%9F%E5%8B%95%E6%99%82%E8%80%97%E7%9B%A1.png)
我正在努力在使用 CloudFormation 建立的 AWS 叢集上配置 slurm。在啟動時,一些節點被設定為“耗盡”狀態,原因是“低套接字核線程計數」。但是,叢集中的所有節點都是相同的 EC2 執行個體類型,安裝了相同的 slurm.conf 文件,並且來自相同的 AMI。只有部分節點最終處於“耗盡”狀態,在我手動將“ drain」節點的狀態更新為「resume」後,它們就可以用來處理任務了。
ubuntu@ip-10-0-0-10:~$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
compute* up infinite 2 drain ip-10-0-0-10,node1
compute* up infinite 1 idle node2
ubuntu@ip-10-0-0-10:~$ scontrol show node node1
NodeName=node1 Arch=x86_64 CoresPerSocket=1
CPUAlloc=0 CPUErr=0 CPUTot=4 CPULoad=0.40 Features=(null)
Gres=(null)
NodeAddr=node1 NodeHostName=node1 Version=15.08
OS=Linux RealMemory=1 AllocMem=0 FreeMem=15062 Sockets=4 Boards=1
State=IDLE+DRAIN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A
BootTime=2019-08-19T21:46:44 SlurmdStartTime=2019-08-19T21:48:36
CapWatts=n/a
CurrentWatts=0 LowestJoules=0 ConsumedJoules=0
ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s
Reason=Low socket*core*thread count, Low CPUs [slurm@2019-08-19T21:47:06]
ubuntu@ip-10-0-0-10:~$ sudo scontrol update nodename=node1,ip-10-0-0-10 state=RESUME
ubuntu@ip-10-0-0-10:~$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
compute* up infinite 3 idle ip-10-0-0-10,node[1-2]
答案1
如果尚未設定,請嘗試在 slurm.conf 中設定「ReturnToService=2」。然後重新啟動 slurm 服務。這裡,2的值意味著
使用有效設定註冊後,DOWN 節點將可供使用。該節點可能因任何原因而被設定為“關閉”。如果節點的記憶體、GRES、CPU 數量等等於或大於 slurm.conf 中配置的值,則節點將註冊有效配置。 (在 Cray ALPS 系統上停用。)
預設值為 0。