Узлы Slurm на AWS настроены на сброс при загрузке

Узлы Slurm на AWS настроены на сброс при загрузке

Я работаю над настройкой slurm на кластере AWS, созданном с помощью CloudFormation. Во время загрузки некоторые узлы переходят в состояние «слива», при этом заявленная причина — «Низкий уровень сокетаосновнойКоличество потоков». Однако все узлы в кластере имеют одинаковый тип экземпляра EC2, имеют одинаковый установленный файл slurm.conf и исходят из одного AMI. ТОЛЬКО НЕКОТОРЫЕ узлы оказываются в состоянии «слива», и я не вижу в этом никакой закономерности. После того, как я вручную обновляю состояние узлов «слива» на «возобновить», они становятся доступны для обработки задач. Кто-нибудь видел это раньше?

ubuntu@ip-10-0-0-10:~$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
compute*     up   infinite      2  drain ip-10-0-0-10,node1
compute*     up   infinite      1   idle node2

ubuntu@ip-10-0-0-10:~$ scontrol show node node1
NodeName=node1 Arch=x86_64 CoresPerSocket=1
   CPUAlloc=0 CPUErr=0 CPUTot=4 CPULoad=0.40 Features=(null)
   Gres=(null)
   NodeAddr=node1 NodeHostName=node1 Version=15.08
   OS=Linux RealMemory=1 AllocMem=0 FreeMem=15062 Sockets=4 Boards=1
   State=IDLE+DRAIN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A
   BootTime=2019-08-19T21:46:44 SlurmdStartTime=2019-08-19T21:48:36
   CapWatts=n/a
   CurrentWatts=0 LowestJoules=0 ConsumedJoules=0
   ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s
   Reason=Low socket*core*thread count, Low CPUs [slurm@2019-08-19T21:47:06]

ubuntu@ip-10-0-0-10:~$ sudo scontrol update nodename=node1,ip-10-0-0-10 state=RESUME

ubuntu@ip-10-0-0-10:~$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
compute*     up   infinite      3   idle ip-10-0-0-10,node[1-2]

решение1

Попробуйте установить "ReturnToService=2" в slurm.conf, если это еще не установлено. Затем перезапустите службы slurm. Здесь значение 2 означает

Узел DOWN станет доступен для использования после регистрации с допустимой конфигурацией. Узел мог быть переведен в состояние DOWN по любой причине. Узел регистрируется с допустимой конфигурацией, если его память, GRES, количество ЦП и т. д. равны или больше значений, настроенных в slurm.conf. (Отключено в системах Cray ALPS.)

Значение по умолчанию — 0.

Источникhttps://slurm.schedmd.com/slurm.conf.html

Связанный контент