Comportamento SLURM, SSH e NOHUP

Comportamento SLURM, SSH e NOHUP

Sou administrador de um cluster em execução no CentOS e uso SLURM para enviar trabalhos de um nó de login para nós de computação. Recentemente, um usuário reclamou de algum comportamento inesperado em seus trabalhos. Se um usuário iniciar um trabalho com srune depois efetuar logout, o trabalho continuará sendo executado conforme esperado. No entanto, quando o usuário é desconectado por um tempo limite de SSH, o trabalho é encerrado. Eu repliquei esse comportamento eliminando um shell que executa um trabalho usando kill -1 ShellJobIDe o trabalho é eliminado. O exame dos logs SLURM indica que a tarefa realmente recebeu a SIGKILLe não a SIGHUPcom base na linha WSIGTERM 9. Além disso, se eu executar kill -1 ActiveSrunJob, os trabalhos sairão com WSIGTERM 9. E quanto ao logout usando exitimpede que o trabalho SLURM seja cancelado? Fiquei com a impressão, e a pesquisa parece apoiar isso, SIGHUPé propagado para os filhos de um shell no logout. Estou faltando alguma coisa ou completamente errado?

informação relacionada