SLURM com nó principal "parcial"

SLURM com nó principal "parcial"

Estou tentando instalar o SLURM com NFS em um pequeno cluster HPC ubuntu 18.04, de maneira típica, por exemplo, configurar controlador (slurmctld) e clientes (slurmd) e diretório compartilhado, etc. configurá-lo de forma que haja um controlador em uma parte do nó principal e outras unidades no nó principal sejam usadas pela rotina de particionamento de recursos, como os outros nós? Existe uma maneira de fazer isso usando o arquivo de configuração SLURM?

Estou essencialmente perguntando como maximizar os recursos se o controlador estiver realizando apenas trabalhos leves.

Obrigado, felicidades!

Responder1

Você está tentando consumir o headnode como um nó de computação. Isso é perfeitamente normal em clusters pequenos e até mesmo em estações de trabalho que possuem SLURM como sistema de fila para consumi-lo como uma forma mais fácil de enfileirar jobs ou de compartilhar o poder computacional entre um grupo de usuários que tem acesso a esta estação de trabalho.

Para isso basta habilitar slurmdna mesma máquina que roda o slurmctld. Lembre-se de adicionar o respectivo nó e entrada de partição /etc/slurm/slurm.confcom as especificações de computação. Como exemplo, você deve ter algo assim:

ClusterName=Cloyster
ControlMachine=charizard.cluster.example.com
SlurmUser=slurm
SlurmctldPort=6817
SlurmdPort=6818
AuthType=auth/munge
StateSaveLocation=/var/spool/slurm/ctld
SlurmdSpoolDir=/var/spool/slurm/d
SwitchType=switch/none
MpiDefault=none
SlurmctldPidFile=/var/run/slurmctld.pid
SlurmdPidFile=/var/run/slurmd.pid
ProctrackType=proctrack/pgid
SlurmctldTimeout=300
SlurmdTimeout=300
InactiveLimit=0
MinJobAge=300
KillWait=30
Waittime=0
SchedulerType=sched/backfill
SelectType=select/cons_tres
SelectTypeParameters=CR_Core
SlurmctldDebug=info
SlurmctldLogFile=/var/log/slurmctld.log
SlurmdDebug=info
SlurmdLogFile=/var/log/slurmd.log
JobCompType=jobcomp/none
TaskPlugin=task/affinity
PropagateResourceLimitsExcept=MEMLOCK
AccountingStorageType=accounting_storage/filetxt
Epilog=/etc/slurm/slurm.epilog.clean
SlurmctldParameters=enable_configless

ReturnToService=2
NodeName=charizard Sockets=2 CoresPerSocket=64 ThreadsPerCore=2 State=UNKNOWN
PartitionName=execution Nodes=charizard Default=YES MaxTime=720:00:00 State=UP Oversubscribe=EXCLUSIVE

Observe que NodeName possui o nome do host da máquina de controle.

informação relacionada