SLURM с «частичным» головным узлом

Question

Вы пытаетесь использовать головной узел как вычислительный узел. Это совершенно нормально для небольших кластеров и даже для рабочих станций, которые используют SLURM в качестве системы очередей, чтобы использовать его как более простой способ постановки заданий в очередь или для распределения вычислительной мощности среди группы пользователей, имеющих доступ к этой рабочей станции.

Для этого просто включите slurmdна той же машине, на которой запущен slurmctld. Не забудьте добавить соответствующий узел и запись раздела /etc/slurm/slurm.confв спецификации вычислений. Например, у вас должно быть что-то вроде этого:

ClusterName=Cloyster
ControlMachine=charizard.cluster.example.com
SlurmUser=slurm
SlurmctldPort=6817
SlurmdPort=6818
AuthType=auth/munge
StateSaveLocation=/var/spool/slurm/ctld
SlurmdSpoolDir=/var/spool/slurm/d
SwitchType=switch/none
MpiDefault=none
SlurmctldPidFile=/var/run/slurmctld.pid
SlurmdPidFile=/var/run/slurmd.pid
ProctrackType=proctrack/pgid
SlurmctldTimeout=300
SlurmdTimeout=300
InactiveLimit=0
MinJobAge=300
KillWait=30
Waittime=0
SchedulerType=sched/backfill
SelectType=select/cons_tres
SelectTypeParameters=CR_Core
SlurmctldDebug=info
SlurmctldLogFile=/var/log/slurmctld.log
SlurmdDebug=info
SlurmdLogFile=/var/log/slurmd.log
JobCompType=jobcomp/none
TaskPlugin=task/affinity
PropagateResourceLimitsExcept=MEMLOCK
AccountingStorageType=accounting_storage/filetxt
Epilog=/etc/slurm/slurm.epilog.clean
SlurmctldParameters=enable_configless

ReturnToService=2
NodeName=charizard Sockets=2 CoresPerSocket=64 ThreadsPerCore=2 State=UNKNOWN
PartitionName=execution Nodes=charizard Default=YES MaxTime=720:00:00 State=UP Oversubscribe=EXCLUSIVE

Обратите внимание, что NodeName содержит имя хоста управляющей машины.

Answer 1

Вы пытаетесь использовать головной узел как вычислительный узел. Это совершенно нормально для небольших кластеров и даже для рабочих станций, которые используют SLURM в качестве системы очередей, чтобы использовать его как более простой способ постановки заданий в очередь или для распределения вычислительной мощности среди группы пользователей, имеющих доступ к этой рабочей станции.

Для этого просто включите slurmdна той же машине, на которой запущен slurmctld. Не забудьте добавить соответствующий узел и запись раздела /etc/slurm/slurm.confв спецификации вычислений. Например, у вас должно быть что-то вроде этого:

ClusterName=Cloyster
ControlMachine=charizard.cluster.example.com
SlurmUser=slurm
SlurmctldPort=6817
SlurmdPort=6818
AuthType=auth/munge
StateSaveLocation=/var/spool/slurm/ctld
SlurmdSpoolDir=/var/spool/slurm/d
SwitchType=switch/none
MpiDefault=none
SlurmctldPidFile=/var/run/slurmctld.pid
SlurmdPidFile=/var/run/slurmd.pid
ProctrackType=proctrack/pgid
SlurmctldTimeout=300
SlurmdTimeout=300
InactiveLimit=0
MinJobAge=300
KillWait=30
Waittime=0
SchedulerType=sched/backfill
SelectType=select/cons_tres
SelectTypeParameters=CR_Core
SlurmctldDebug=info
SlurmctldLogFile=/var/log/slurmctld.log
SlurmdDebug=info
SlurmdLogFile=/var/log/slurmd.log
JobCompType=jobcomp/none
TaskPlugin=task/affinity
PropagateResourceLimitsExcept=MEMLOCK
AccountingStorageType=accounting_storage/filetxt
Epilog=/etc/slurm/slurm.epilog.clean
SlurmctldParameters=enable_configless

ReturnToService=2
NodeName=charizard Sockets=2 CoresPerSocket=64 ThreadsPerCore=2 State=UNKNOWN
PartitionName=execution Nodes=charizard Default=YES MaxTime=720:00:00 State=UP Oversubscribe=EXCLUSIVE

Обратите внимание, что NodeName содержит имя хоста управляющей машины.

SLURM с «частичным» головным узлом

решение1

Связанный контент