
У меня есть вопрос к тем из вас, кто знаком с планировщиком Slurm. Иногда я получаю следующее сообщение об ошибке slurmstepd: ошибка: Превышен предел памяти шага в какой-то момент.
Я знаю, что это означает, что памяти, выделенной моему процессу, было недостаточно. Тем не менее, процесс не убивается планировщиком, и часто это кажется безобидным: программа выполняется до завершения, а выходные файлы выглядят в хорошем состоянии.
Нужно ли мневсегдапредположить, что вывод неисправен и перезапустить программы, если я получаю это сообщение об ошибке? Почему иногда выделенная память может быть превышена, но программа не завершается?
решение1
Если вы не получили сообщение о том, что задание было остановлено SLURM, а sacct не показывает статус «завершено», вы можете с полным основанием предположить, что задание завершено.