SLURM con nodo principal "parcial"

SLURM con nodo principal "parcial"

Estoy intentando instalar SLURM con NFS en un pequeño clúster HPC ubuntu 18.04, de forma típica, por ejemplo, configurar el controlador (slurmctld) y los clientes (slurmd) y el directorio compartido, etc. Lo que tengo curiosidad es si hay alguna manera de ¿Configurarlo de modo que haya un controlador en una parte del nodo principal y que la rutina de partición de recursos utilice otras unidades en el nodo principal, como los otros nodos? ¿Hay alguna manera de lograr esto usando el archivo de configuración SLURM?

Básicamente, estoy preguntando cómo maximizar los recursos si el controlador solo realizará un trabajo liviano.

¡Gracias, saludos!

Respuesta1

Estás intentando consumir el nodo principal como un nodo informático. Esto es perfectamente normal en clústeres pequeños e incluso en estaciones de trabajo que tienen SLURM como sistema de cola para consumirlo como una forma más fácil de poner en cola trabajos o compartir la potencia informática entre un grupo de usuarios que tienen acceso a esta estación de trabajo.

Para hacer esto simplemente habilítelo slurmden la misma máquina que ejecuta slurmctld. Recuerde agregar el nodo y la partición respectivos /etc/slurm/slurm.confcon las especificaciones de cálculo. Como ejemplo, deberías tener algo como esto:

ClusterName=Cloyster
ControlMachine=charizard.cluster.example.com
SlurmUser=slurm
SlurmctldPort=6817
SlurmdPort=6818
AuthType=auth/munge
StateSaveLocation=/var/spool/slurm/ctld
SlurmdSpoolDir=/var/spool/slurm/d
SwitchType=switch/none
MpiDefault=none
SlurmctldPidFile=/var/run/slurmctld.pid
SlurmdPidFile=/var/run/slurmd.pid
ProctrackType=proctrack/pgid
SlurmctldTimeout=300
SlurmdTimeout=300
InactiveLimit=0
MinJobAge=300
KillWait=30
Waittime=0
SchedulerType=sched/backfill
SelectType=select/cons_tres
SelectTypeParameters=CR_Core
SlurmctldDebug=info
SlurmctldLogFile=/var/log/slurmctld.log
SlurmdDebug=info
SlurmdLogFile=/var/log/slurmd.log
JobCompType=jobcomp/none
TaskPlugin=task/affinity
PropagateResourceLimitsExcept=MEMLOCK
AccountingStorageType=accounting_storage/filetxt
Epilog=/etc/slurm/slurm.epilog.clean
SlurmctldParameters=enable_configless

ReturnToService=2
NodeName=charizard Sockets=2 CoresPerSocket=64 ThreadsPerCore=2 State=UNKNOWN
PartitionName=execution Nodes=charizard Default=YES MaxTime=720:00:00 State=UP Oversubscribe=EXCLUSIVE

Observe que NodeName tiene el nombre de host de la máquina de control.

información relacionada