Возможные последствия slurmstepd: ошибка: превышен лимит памяти шагов в какой-то момент?

Возможные последствия slurmstepd: ошибка: превышен лимит памяти шагов в какой-то момент?

У меня есть вопрос к тем из вас, кто знаком с планировщиком Slurm. Иногда я получаю следующее сообщение об ошибке slurmstepd: ошибка: Превышен предел памяти шага в какой-то момент.

Я знаю, что это означает, что памяти, выделенной моему процессу, было недостаточно. Тем не менее, процесс не убивается планировщиком, и часто это кажется безобидным: программа выполняется до завершения, а выходные файлы выглядят в хорошем состоянии.

Нужно ли мневсегдапредположить, что вывод неисправен и перезапустить программы, если я получаю это сообщение об ошибке? Почему иногда выделенная память может быть превышена, но программа не завершается?

решение1

Если вы не получили сообщение о том, что задание было остановлено SLURM, а sacct не показывает статус «завершено», вы можете с полным основанием предположить, что задание завершено.

Связанный контент