
Sou administrador de um cluster em execução no CentOS e uso SLURM para enviar trabalhos de um nó de login para nós de computação. Recentemente, um usuário reclamou de algum comportamento inesperado em seus trabalhos. Se um usuário iniciar um trabalho com srun
e depois efetuar logout, o trabalho continuará sendo executado conforme esperado. No entanto, quando o usuário é desconectado por um tempo limite de SSH, o trabalho é encerrado. Eu repliquei esse comportamento eliminando um shell que executa um trabalho usando kill -1 ShellJobID
e o trabalho é eliminado. O exame dos logs SLURM indica que a tarefa realmente recebeu a SIGKILL
e não a SIGHUP
com base na linha WSIGTERM 9
. Além disso, se eu executar kill -1 ActiveSrunJob
, os trabalhos sairão com WSIGTERM 9
. E quanto ao logout usando exit
impede que o trabalho SLURM seja cancelado? Fiquei com a impressão, e a pesquisa parece apoiar isso, SIGHUP
é propagado para os filhos de um shell no logout. Estou faltando alguma coisa ou completamente errado?