
スケジューラ Slurm に詳しい方に質問があります。時々、slurmstepd: error: Exceeded step memory limit at some point というエラー メッセージが表示されることがあります。
これは、プロセスに割り当てられたメモリが十分ではなかったことを意味していることはわかっています。ただし、プロセスはスケジューラによって強制終了されることはなく、多くの場合、無害であるように見えます。プログラムは完了まで実行され、出力ファイルは良好な状態に見えます。
したほうがいいいつもエラー メッセージが表示されたら、出力に問題があると想定してプログラムを再実行しますか? 割り当てられたメモリを超過してもプログラムが終了しないことがあるのはなぜですか?
答え1
SLURM によってジョブが強制終了され、sacct が完了ステータスを示しているというメッセージを受け取っていない限り、ジョブが完了したと合理的に想定できるはずです。