SGE 自動構成された消耗品リソース?

Question

私が見つけた解決策は、割り当てルールを持つ新しい並列環境を作成することです$pe_slots(を参照man sge_pe)。はスロットの使用をノードごとに制限するため、その並列環境で使用可能なスロット数を最大値と同じに設定しました$pe_slots。 starcluster はクラスターの起動時にスロットを設定するため、これでうまく機能するようです。また、新しい並列環境をキューに追加する必要もあります。これを非常に簡単にするために、次の操作を行います。

qconf -ap by_node

ファイルを編集した後の内容は次のとおりです。

pe_name            by_node
slots              9999999
user_lists         NONE
xuser_lists        NONE
start_proc_args    /bin/true
stop_proc_args     /bin/true
allocation_rule    $pe_slots
control_slaves     TRUE
job_is_first_task  TRUE
urgency_slots      min
accounting_summary FALSE

また、キュー ( all.qstarcluster によって呼び出される) を変更して、この新しい並列環境をリストに追加します。

qconf -mq all.q

この行を変更します:

pe_list               make orte

これに:

pe_list               make orte by_node

特定のジョブから生成されたジョブが 1 つのノードに制限されるのではないかと心配していましたが、そうではないようです。2 つのノードと、それぞれ 2 つのスロットを持つクラスターがあります。

次のようなテストファイルを作成しました。

#!/bin/bash

qsub -b y -pe by_node 2 -cwd sleep 100

sleep 100

次のように実行しました:

qsub -V -pe by_node 2 test.sh

しばらくすると、qstat両方のジョブが異なるノードで実行されていることが表示されます。

job-ID  prior   name       user         state submit/start at     queue                          slots ja-task-ID
-----------------------------------------------------------------------------------------------------------------
     25 0.55500 test       root         r     10/17/2012 21:42:57 all.q@master                       2      
     26 0.55500 sleep      root         r     10/17/2012 21:43:12 all.q@node001                      2

また、1 つのノードで同じ数のスロットを要求する 3 つのジョブを同時に送信し、ノードごとに 1 つずつ、一度に 2 つだけ実行するテストも行いました。これで適切に設定されているようです。

Answer 1