Mögliche Auswirkungen von „slurmstepd“: Fehler: Schrittspeicherlimit irgendwann überschritten?

Mögliche Auswirkungen von „slurmstepd“: Fehler: Schrittspeicherlimit irgendwann überschritten?

Ich habe eine Frage an diejenigen unter euch, die mit dem Scheduler Slurm vertraut sind. Manchmal erhalte ich die folgende Fehlermeldung slurmstepd: Fehler: An einem bestimmten Punkt wurde das Schrittspeicherlimit überschritten.

Ich weiß, dass es bedeutet, dass der meinem Prozess zugewiesene Speicher nicht ausreicht. Trotzdem wird der Prozess vom Scheduler nicht beendet und oft scheint es harmlos zu sein: Das Programm läuft bis zum Ende und die Ausgabedateien sehen in gutem Zustand aus.

Sollte ichstetsdavon ausgehen, dass die Ausgabe fehlerhaft ist und die Programme erneut ausführen, wenn ich diese Fehlermeldung erhalte? Warum kann der zugewiesene Speicher manchmal überschritten werden, ohne dass das Programm beendet wird?

Antwort1

Sofern Sie keine Meldung erhalten haben, dass der Job von SLURM abgebrochen wurde und sacct den Status „Abgeschlossen“ anzeigt, können Sie davon ausgehen, dass der Job abgeschlossen ist.

verwandte Informationen