![Узлы Slurm на AWS настроены на сброс при загрузке](https://rvso.com/image/1601149/%D0%A3%D0%B7%D0%BB%D1%8B%20Slurm%20%D0%BD%D0%B0%20AWS%20%D0%BD%D0%B0%D1%81%D1%82%D1%80%D0%BE%D0%B5%D0%BD%D1%8B%20%D0%BD%D0%B0%20%D1%81%D0%B1%D1%80%D0%BE%D1%81%20%D0%BF%D1%80%D0%B8%20%D0%B7%D0%B0%D0%B3%D1%80%D1%83%D0%B7%D0%BA%D0%B5.png)
Я работаю над настройкой slurm на кластере AWS, созданном с помощью CloudFormation. Во время загрузки некоторые узлы переходят в состояние «слива», при этом заявленная причина — «Низкий уровень сокетаосновнойКоличество потоков». Однако все узлы в кластере имеют одинаковый тип экземпляра EC2, имеют одинаковый установленный файл slurm.conf и исходят из одного AMI. ТОЛЬКО НЕКОТОРЫЕ узлы оказываются в состоянии «слива», и я не вижу в этом никакой закономерности. После того, как я вручную обновляю состояние узлов «слива» на «возобновить», они становятся доступны для обработки задач. Кто-нибудь видел это раньше?
ubuntu@ip-10-0-0-10:~$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
compute* up infinite 2 drain ip-10-0-0-10,node1
compute* up infinite 1 idle node2
ubuntu@ip-10-0-0-10:~$ scontrol show node node1
NodeName=node1 Arch=x86_64 CoresPerSocket=1
CPUAlloc=0 CPUErr=0 CPUTot=4 CPULoad=0.40 Features=(null)
Gres=(null)
NodeAddr=node1 NodeHostName=node1 Version=15.08
OS=Linux RealMemory=1 AllocMem=0 FreeMem=15062 Sockets=4 Boards=1
State=IDLE+DRAIN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A
BootTime=2019-08-19T21:46:44 SlurmdStartTime=2019-08-19T21:48:36
CapWatts=n/a
CurrentWatts=0 LowestJoules=0 ConsumedJoules=0
ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s
Reason=Low socket*core*thread count, Low CPUs [slurm@2019-08-19T21:47:06]
ubuntu@ip-10-0-0-10:~$ sudo scontrol update nodename=node1,ip-10-0-0-10 state=RESUME
ubuntu@ip-10-0-0-10:~$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
compute* up infinite 3 idle ip-10-0-0-10,node[1-2]
решение1
Попробуйте установить "ReturnToService=2" в slurm.conf, если это еще не установлено. Затем перезапустите службы slurm. Здесь значение 2 означает
Узел DOWN станет доступен для использования после регистрации с допустимой конфигурацией. Узел мог быть переведен в состояние DOWN по любой причине. Узел регистрируется с допустимой конфигурацией, если его память, GRES, количество ЦП и т. д. равны или больше значений, настроенных в slurm.conf. (Отключено в системах Cray ALPS.)
Значение по умолчанию — 0.