SLURM、SSH、NOHUP 行為

SLURM、SSH、NOHUP 行為

我是在 CentOS 上執行的叢集的管理員,並使用 SLURM 將作業從登入節點傳送到運算節點。最近,一位用戶抱怨其工作中出現了一些意外行為。如果使用者啟動作業srun然後登出,作業將繼續如預期運作。但是,當使用者因 SSH 逾時而斷開連線時,作業將會終止。我透過殺死運行作業的 shell 來複製此行為,kill -1 ShellJobID並且該作業被殺死。檢查 SL​​URM 日誌表示作業實際上收到了 a SIGKILL,而不是SIGHUP基於該行的a WSIGTERM 9。此外,如果我運行kill -1 ActiveSrunJob,作業將以 退出WSIGTERM 9。使用註銷exit會阻止 SLURM 作業被取消嗎?我的印像是,研究似乎支持這一點,SIGHUP它會在註銷時傳播到 shell 的子級。我是否錯過了什麼或完全偏離了基地?

相關內容