SLURM、SSH、NOHUP の動作

SLURM、SSH、NOHUP の動作

私は CentOS で実行され、SLURM を使用してログイン ノードからコンピューティング ノードにジョブを送信しているクラスターの管理者です。最近、ユーザーからジョブの予期しない動作について苦情がありました。ユーザーが を使用してジョブを開始しsrun、その後ログアウトすると、ジョブは期待どおりに実行され続けます。ただし、SSH タイムアウトによってユーザーが切断されると、ジョブは強制終了されます。 を使用してジョブを実行しているシェルを強制終了すると、ジョブが強制終了され、この動作が再現されました。SLURMログを調べると、 の行に基づいて、kill -1 ShellJobIDジョブは実際には を受け取ったSIGKILLのであって を受け取ったのではないことがわかります。さらに、 を実行すると、ジョブは で終了します。 を使用してログアウトすると、SLURM ジョブがキャンセルされなくなるのはなぜですか? は、ログアウト時にシェルの子に伝播されるという印象を受けていましたが、調査でもそのように裏付けられているようです。何か見落としているのでしょうか、それとも完全に的外れでしょうか?SIGHUPWSIGTERM 9kill -1 ActiveSrunJobWSIGTERM 9exitSIGHUP

関連情報