
我有一個問題想問那些熟悉調度程式 Slurm 的人。有時我會收到以下錯誤訊息 slurmstepd:錯誤:在某些時候超出了步驟記憶體限制。
我知道這意味著分配給我的進程的記憶體不夠。儘管如此,該進程並沒有被調度程序終止,並且通常看起來無害:程式運行完成並且輸出檔案看起來狀態良好。
我是不是該總是如果我收到該錯誤訊息,假設輸出有錯誤並重新運行程式?為什麼有時可以超出分配的記憶體但程式沒有被殺死?
答案1
除非您收到一條訊息,表示該作業已被 SLURM 終止並且 sacct 顯示已完成狀態,否則您應該能夠合理地假設該作業已完成。