Slurm-Knoten auf AWS sind so eingestellt, dass sie beim Booten entleert werden

Slurm-Knoten auf AWS sind so eingestellt, dass sie beim Booten entleert werden

Ich arbeite daran, Slurm auf einem mit CloudFormation erstellten AWS-Cluster zu konfigurieren. Beim Booten werden einige Knoten in den Zustand „Drain“ versetzt, mit der angegebenen Begründung „Low SocketKernThread-Anzahl". Alle Knoten im Cluster sind jedoch vom gleichen EC2-Instanztyp, haben dieselbe slurm.conf-Datei installiert und stammen aus demselben AMI. NUR EINIGE der Knoten landen im Status „Drain“, und ich erkenne darin kein Muster. Nachdem ich den Status der „Drain“-Knoten manuell auf „Resume“ aktualisiert habe, sind sie für die Verarbeitung von Aufgaben verfügbar. Hat das schon einmal jemand gesehen?

ubuntu@ip-10-0-0-10:~$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
compute*     up   infinite      2  drain ip-10-0-0-10,node1
compute*     up   infinite      1   idle node2

ubuntu@ip-10-0-0-10:~$ scontrol show node node1
NodeName=node1 Arch=x86_64 CoresPerSocket=1
   CPUAlloc=0 CPUErr=0 CPUTot=4 CPULoad=0.40 Features=(null)
   Gres=(null)
   NodeAddr=node1 NodeHostName=node1 Version=15.08
   OS=Linux RealMemory=1 AllocMem=0 FreeMem=15062 Sockets=4 Boards=1
   State=IDLE+DRAIN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A
   BootTime=2019-08-19T21:46:44 SlurmdStartTime=2019-08-19T21:48:36
   CapWatts=n/a
   CurrentWatts=0 LowestJoules=0 ConsumedJoules=0
   ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s
   Reason=Low socket*core*thread count, Low CPUs [slurm@2019-08-19T21:47:06]

ubuntu@ip-10-0-0-10:~$ sudo scontrol update nodename=node1,ip-10-0-0-10 state=RESUME

ubuntu@ip-10-0-0-10:~$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
compute*     up   infinite      3   idle ip-10-0-0-10,node[1-2]

Antwort1

Versuchen Sie, "ReturnToService=2" in slurm.conf festzulegen, falls dies nicht bereits der Fall ist. Starten Sie dann die Slurm-Dienste neu. Hier bedeutet der Wert 2

Ein DOWN-Knoten wird nach der Registrierung mit einer gültigen Konfiguration zur Verwendung verfügbar. Der Knoten kann aus irgendeinem Grund auf DOWN gesetzt worden sein. Ein Knoten wird mit einer gültigen Konfiguration registriert, wenn sein Speicher, GRES, CPU-Anzahl usw. gleich oder größer als die in slurm.conf konfigurierten Werte sind. (Auf Cray ALPS-Systemen deaktiviert.)

Der Standardwert ist 0.

Quellehttps://slurm.schedmd.com/slurm.conf.html

verwandte Informationen