SGE 自動配置消耗資源？

Question

我找到的解決方案是建立一個具有$pe_slots分配規則的新平行環境（請參閱參考資料man sge_pe）。我將該並行環境可用的插槽數量設定為等於最大值，因為$pe_slots限制了每個節點的插槽使用量。由於 starcluster 在叢集啟動時設定插槽，因此這似乎可以很好地實現這一目的。您還需要將新的並行環境新增到佇列中。所以為了讓這件事變得簡單：

qconf -ap by_node

這是我編輯文件後的內容：

pe_name            by_node
slots              9999999
user_lists         NONE
xuser_lists        NONE
start_proc_args    /bin/true
stop_proc_args     /bin/true
allocation_rule    $pe_slots
control_slaves     TRUE
job_is_first_task  TRUE
urgency_slots      min
accounting_summary FALSE

也要修改佇列（all.q由 starcluster 呼叫）以將這個新的平行環境新增到清單中。

qconf -mq all.q

並更改這一行：

pe_list               make orte

對此：

pe_list               make orte by_node

我擔心從給定作業產生的作業將僅限於單一節點，但情況似乎並非如此。我有一個包含兩個節點的集群，每個節點有兩個插槽。

我製作了一個測試文件，如下所示：

#!/bin/bash

qsub -b y -pe by_node 2 -cwd sleep 100

sleep 100

並像這樣執行它：

qsub -V -pe by_node 2 test.sh

過了一會兒，qstat顯示兩個作業在不同的節點上運行：

job-ID  prior   name       user         state submit/start at     queue                          slots ja-task-ID
-----------------------------------------------------------------------------------------------------------------
     25 0.55500 test       root         r     10/17/2012 21:42:57 all.q@master                       2      
     26 0.55500 sleep      root         r     10/17/2012 21:43:12 all.q@node001                      2

我還測試了一次提交 3 個作業，在單一節點上請求相同數量的槽，並且一次僅運行兩個作業，每個節點一個。所以這似乎是正確設定的！

Answer 1