
Tengo una pregunta para aquellos que estén familiarizados con el programador Slurm. A veces recibo el siguiente mensaje de error slurmstepd: error: se superó el límite de memoria de pasos en algún momento.
Sé que significa que la memoria asignada a mi proceso no fue suficiente. No obstante, el programador no finaliza el proceso y muchas veces parece inofensivo: el programa se ejecuta hasta su finalización y los archivos de salida se ven en buen estado.
Deberíasiempre¿Asumir que la salida es defectuosa y volver a ejecutar los programas si recibo ese mensaje de error? ¿Por qué a veces se puede exceder la memoria asignada pero el programa no se cancela?
Respuesta1
A menos que haya recibido un mensaje indicando que SLURM canceló el trabajo y sacct muestra un estado completado, debería poder asumir razonablemente que el trabajo se completó.