"부분" 헤드 노드가 있는 SLURM

"부분" 헤드 노드가 있는 SLURM

작은 우분투 18.04 HPC 클러스터에 NFS와 함께 SLURM을 일반적인 방식으로 설치하려고 합니다(예: 컨트롤러(slurmctld), 클라이언트(slurmd) 및 공유 디렉터리 구성 등 구성). 제가 궁금한 점은 다음을 수행할 수 있는 방법이 있습니까? 헤드 노드의 일부에 컨트롤러가 있고 헤드 노드의 다른 드라이브가 다른 노드와 마찬가지로 리소스 분할 루틴에서 사용되도록 설정합니까? SLURM 구성 파일을 사용하여 이를 수행할 수 있는 방법이 있습니까?

컨트롤러가 가벼운 작업만 수행하는 경우 리소스를 최대화하는 방법을 본질적으로 묻고 있습니다.

고마워요, 건배!

답변1

헤드 노드를 컴퓨팅 노드로 사용하려고 합니다. 이는 작업을 대기열에 추가하거나 이 워크스테이션에 액세스할 수 있는 사용자 그룹 간에 컴퓨팅 성능을 공유하기 위한 보다 쉬운 방법으로 SLURM을 대기열 시스템으로 사용하는 소규모 클러스터 및 워크스테이션에서도 완전히 정상적인 현상입니다.

이렇게 하려면 slurmd실행되는 동일한 시스템에서 활성화하면 됩니다 slurmctld. /etc/slurm/slurm.conf컴퓨팅 사양에 해당 노드 및 파티션 항목을 추가하는 것을 잊지 마십시오 . 예를 들어 다음과 같은 것이 있어야 합니다.

ClusterName=Cloyster
ControlMachine=charizard.cluster.example.com
SlurmUser=slurm
SlurmctldPort=6817
SlurmdPort=6818
AuthType=auth/munge
StateSaveLocation=/var/spool/slurm/ctld
SlurmdSpoolDir=/var/spool/slurm/d
SwitchType=switch/none
MpiDefault=none
SlurmctldPidFile=/var/run/slurmctld.pid
SlurmdPidFile=/var/run/slurmd.pid
ProctrackType=proctrack/pgid
SlurmctldTimeout=300
SlurmdTimeout=300
InactiveLimit=0
MinJobAge=300
KillWait=30
Waittime=0
SchedulerType=sched/backfill
SelectType=select/cons_tres
SelectTypeParameters=CR_Core
SlurmctldDebug=info
SlurmctldLogFile=/var/log/slurmctld.log
SlurmdDebug=info
SlurmdLogFile=/var/log/slurmd.log
JobCompType=jobcomp/none
TaskPlugin=task/affinity
PropagateResourceLimitsExcept=MEMLOCK
AccountingStorageType=accounting_storage/filetxt
Epilog=/etc/slurm/slurm.epilog.clean
SlurmctldParameters=enable_configless

ReturnToService=2
NodeName=charizard Sockets=2 CoresPerSocket=64 ThreadsPerCore=2 State=UNKNOWN
PartitionName=execution Nodes=charizard Default=YES MaxTime=720:00:00 State=UP Oversubscribe=EXCLUSIVE

NodeName에 제어 시스템의 호스트 이름이 있는지 확인하세요.

관련 정보