Recurso consumível configurado automaticamente pela SGE?

Question

A solução que encontrei é fazer um novo ambiente paralelo que possua a $pe_slotsregra de alocação (veja man sge_pe). Defino o número de slots disponíveis para esse ambiente paralelo como igual ao máximo, pois $pe_slotslimita o uso do slot por nó. Como o starcluster configura os slots no momento da inicialização do cluster, isso parece funcionar muito bem. Você também precisa adicionar o novo ambiente paralelo à fila. Então, apenas para tornar isso muito simples:

qconf -ap by_node

e aqui está o conteúdo depois de editar o arquivo:

pe_name            by_node
slots              9999999
user_lists         NONE
xuser_lists        NONE
start_proc_args    /bin/true
stop_proc_args     /bin/true
allocation_rule    $pe_slots
control_slaves     TRUE
job_is_first_task  TRUE
urgency_slots      min
accounting_summary FALSE

Modifique também a fila (chamada all.qpelo starcluster) para adicionar este novo ambiente paralelo à lista.

qconf -mq all.q

e altere esta linha:

pe_list               make orte

para isso:

pe_list               make orte by_node

Fiquei preocupado que os trabalhos gerados a partir de um determinado trabalho fossem limitados a um único nó, mas não parece ser o caso. Eu tenho um cluster com dois nós e dois slots cada.

Fiz um arquivo de teste parecido com este:

#!/bin/bash

qsub -b y -pe by_node 2 -cwd sleep 100

sleep 100

e executei assim:

qsub -V -pe by_node 2 test.sh

Depois de um tempo, qstatmostra os dois trabalhos em execução em nós diferentes:

job-ID  prior   name       user         state submit/start at     queue                          slots ja-task-ID
-----------------------------------------------------------------------------------------------------------------
     25 0.55500 test       root         r     10/17/2012 21:42:57 all.q@master                       2      
     26 0.55500 sleep      root         r     10/17/2012 21:43:12 all.q@node001                      2

Também testei o envio de três trabalhos de uma vez, solicitando o mesmo número de slots em um único nó, e apenas dois executados por vez, um por nó. Portanto, isso parece estar configurado corretamente!

Answer 1