
Tenho uma pergunta para aqueles que estão familiarizados com o agendador Slurm. Às vezes recebo a seguinte mensagem de erro slurmstepd: erro: Limite de memória de etapas excedido em algum momento.
Eu sei que isso significa que a memória alocada para o meu processo não foi suficiente. No entanto, o processo não é eliminado pelo agendador e muitas vezes parece inócuo: o programa é executado até o fim e os arquivos de saída parecem em bom estado.
Eu devosemprepresumir que a saída está com defeito e executar novamente os programas se receber essa mensagem de erro? Por que às vezes a memória alocada pode ser excedida, mas o programa não é eliminado?
Responder1
A menos que você tenha recebido uma mensagem informando que o trabalho foi eliminado pelo SLURM e sacct mostra um status concluído, você deve ser razoavelmente capaz de assumir que o trabalho foi concluído.