
스케줄러 Slurm에 익숙하신 분들께 질문이 있습니다. 때때로 다음과 같은 오류 메시지가 표시됩니다. slurmstepd: error: Exceeded step memory maximum at some point.
내 프로세스에 할당된 메모리가 충분하지 않다는 것을 의미합니다. 그럼에도 불구하고 프로세스는 스케줄러에 의해 종료되지 않으며 종종 무해해 보입니다. 프로그램이 완료될 때까지 실행되고 출력 파일의 모양이 양호해 보입니다.
내가해야합니까언제나출력에 결함이 있다고 가정하고 해당 오류 메시지가 나타나면 프로그램을 다시 실행하시겠습니까? 때때로 할당된 메모리를 초과할 수 있지만 프로그램이 종료되지 않는 이유는 무엇입니까?
답변1
작업이 SLURM에 의해 종료되었다는 메시지를 받지 않고 sacct에 완료 상태가 표시되지 않는 한 작업이 완료되었다고 합리적으로 가정할 수 있습니다.