Posibles efectos de slurmstepd: error: ¿Se superó el límite de memoria de pasos en algún momento?

Posibles efectos de slurmstepd: error: ¿Se superó el límite de memoria de pasos en algún momento?

Tengo una pregunta para aquellos que estén familiarizados con el programador Slurm. A veces recibo el siguiente mensaje de error slurmstepd: error: se superó el límite de memoria de pasos en algún momento.

Sé que significa que la memoria asignada a mi proceso no fue suficiente. No obstante, el programador no finaliza el proceso y muchas veces parece inofensivo: el programa se ejecuta hasta su finalización y los archivos de salida se ven en buen estado.

Deberíasiempre¿Asumir que la salida es defectuosa y volver a ejecutar los programas si recibo ese mensaje de error? ¿Por qué a veces se puede exceder la memoria asignada pero el programa no se cancela?

Respuesta1

A menos que haya recibido un mensaje indicando que SLURM canceló el trabajo y sacct muestra un estado completado, debería poder asumir razonablemente que el trabajo se completó.

información relacionada