¿Recurso consumible configurado automáticamente por SGE?

Question

La solución que encontré es crear un nuevo entorno paralelo que tenga la $pe_slotsregla de asignación (ver man sge_pe). Configuré la cantidad de ranuras disponibles para ese entorno paralelo para que sea igual al máximo, ya que $pe_slotslimita el uso de ranuras por nodo. Dado que starcluster configura las ranuras en el momento del arranque del clúster, esto parece funcionar muy bien. También debe agregar el nuevo entorno paralelo a la cola. Entonces, para hacer esto muy simple:

qconf -ap by_node

y aquí está el contenido después de editar el archivo:

pe_name            by_node
slots              9999999
user_lists         NONE
xuser_lists        NONE
start_proc_args    /bin/true
stop_proc_args     /bin/true
allocation_rule    $pe_slots
control_slaves     TRUE
job_is_first_task  TRUE
urgency_slots      min
accounting_summary FALSE

Modifique también la cola (llamada all.qpor starcluster) para agregar este nuevo entorno paralelo a la lista.

qconf -mq all.q

y cambia esta línea:

pe_list               make orte

a esto:

pe_list               make orte by_node

Me preocupaba que los trabajos generados a partir de un trabajo determinado se limitaran a un solo nodo, pero este no parece ser el caso. Tengo un clúster con dos nodos y dos ranuras cada uno.

Hice un archivo de prueba que se ve así:

#!/bin/bash

qsub -b y -pe by_node 2 -cwd sleep 100

sleep 100

y lo ejecuté así:

qsub -V -pe by_node 2 test.sh

Después de un rato, qstatse muestran ambos trabajos ejecutándose en diferentes nodos:

job-ID  prior   name       user         state submit/start at     queue                          slots ja-task-ID
-----------------------------------------------------------------------------------------------------------------
     25 0.55500 test       root         r     10/17/2012 21:42:57 all.q@master                       2      
     26 0.55500 sleep      root         r     10/17/2012 21:43:12 all.q@node001                      2

También probé el envío de 3 trabajos a la vez solicitando la misma cantidad de espacios en un solo nodo, y solo se ejecutan dos a la vez, uno por nodo. ¡Así que esto parece estar configurado correctamente!

Answer 1