`qsub` 在“阻塞作業”中留下“NotQueued”

`qsub` 在“阻塞作業”中留下“NotQueued”

我正在遠端叢集上工作(西格 > bugaboo),我透過文件提交流程.pbs。我的.pbs樣子是這樣的

#!/bin/bash
#PBS -l procs=1
#PBS -l walltime=100:00:00
#PBS -N SimulationName
#PBS -m ea
#PBS -M [email protected]
#PBS -l pmem=3000mb
#PBS -t 1-100

echo "Starting run at: `date`"

R --vanilla --args ${PBS_ARRAYID} < /Path/To/code.R

echo "Job finished with exit code $? at: `date`"

PBS_ARRAYID其中每個特定作業的值為 1 到 100。/Path/To/code.R是用 R 語言編寫的一些二進位檔案的包裝器C。當我提交作業時

$ qsub mypbs.pbs

一切似乎都正常運作。模擬按預期運行,我得到了輸出。問題是,在某些時候,當模擬運行時,我經常在「阻塞的作業」中看到奇怪的作業。

$ showq -u myName

active jobs------------------------
JOBID              USERNAME      STATE PROCS   REMAINING            STARTTIME


0 active jobs            0 of 4516 processors in use by local jobs (0.00%)
                        428 of 436 nodes active      (98.17%)

eligible jobs----------------------
JOBID              USERNAME      STATE PROCS     WCLIMIT            QUEUETIME


0 eligible jobs   

blocked jobs-----------------------
JOBID              USERNAME      STATE PROCS     WCLIMIT            QUEUETIME

30004048[]          matthey  NotQueued     1  2:02:00:00  Wed Mar 23 12:56:27
30156104[]          matthey  NotQueued     1  2:02:00:00  Mon Mar 28 01:14:16

2 blocked jobs   

Total jobs:  2

PBS_ARRAYID作業 ID 確實與執行(或先前執行)的作業 ID 相同,但這兩個被封鎖的作業的方括號之間沒有任何內容。這些作業會在那裡保留很長時間,而且我無法刪除它們

$ qdel 30004048[]

qdel: nonexistent job id: 30004048[]

另外,當我收到訊息時,我無法提交任何新工作(這是主要問題)

$ qsub mypbs.pbs

qsub: submit error (Maximum number of jobs already in queue MSG=Job 30893576.b0 violates the global server limit of 500 jobs queued per user)

即使我沒有違反此伺服器限制。最終,這些「NotQueued」作業最終消失,但只是在相對較長的時間之後。

這個問題過去曾多次發生在我身上,並且在該叢集的所有用戶中,我似乎是唯一遇到此問題的人。當聯繫支援人員時,他們通常最終會以某種方式刪除這兩個作業,但到目前為止我還沒有收到此問題的任何長期解決方案。

  • 你知道發生了什麼事嗎?
  • 我可以刪除這兩個奇怪的工作嗎?
  • 如何才能避免此類事情再次發生?

答案1

「這些工作會在那裡待很久」我猜/希望兩年後它們就會最終確定。不管怎樣,我偶然發現了同樣的問題(“我可以刪除這些(…)奇怪的[數組]作業嗎”)並且使用(打字機)引號(單引號或雙引號)解決了問題:

qdel "job_identifier[]"

刪除整個數組。此外,您可以使用選項指定特定$PBS_ARRAYID(或範圍)-t

相關內容