SLURM, SSH, adn NOHUP 동작

SLURM, SSH, adn NOHUP 동작

저는 CentOS에서 실행되고 SLURM을 사용하여 로그인 노드에서 컴퓨팅 노드로 작업을 보내는 클러스터의 관리자입니다. 최근 한 사용자가 작업과 관련된 예상치 못한 동작에 대해 불만을 토로했습니다. 사용자가 작업을 시작한 srun다음 로그아웃하면 작업이 예상대로 계속 실행됩니다. 그러나 SSH 시간 초과로 인해 사용자 연결이 끊어지면 작업이 종료됩니다. 나는 작업을 실행하는 쉘을 종료하여 이 동작을 복제했으며 kill -1 ShellJobID작업은 종료되었습니다. SLURM 로그를 조사하면 작업이 실제로 라인을 기반으로 한 SIGKILL것이 아니라 를 수신했음을 알 수 있습니다 . 또한 을 실행하면 작업이 와 함께 종료됩니다 . 로그아웃하면 SLURM 작업이 취소되지 않도록 방지할 수 있나요? 나는 인상을 받았고 연구 결과에 따르면 로그아웃 시 쉘의 하위 항목에 전파되는 것 같습니다. 내가 뭔가를 놓치고 있는 걸까요, 아니면 완전히 벗어난 걸까요?SIGHUPWSIGTERM 9kill -1 ActiveSrunJobWSIGTERM 9exitSIGHUP

관련 정보