AWS Elastic Inference funktioniert nach dem Aufwachen aus dem Ruhezustand nicht

2024-6-23 • tag-icon

AWS Elastic Inference funktioniert nach dem Aufwachen aus dem Ruhezustand nicht

Ich betreue einen Python-Daemon in einer EC2-Instanz, beobachte eingehende Jobs und führe PyTorch-Inferenzen darauf aus inElastische Inferenz.

Wenn es keine Jobs gibt,überwinterndie Instanz. Wenn Jobs vorhanden sind, wird die Instanz aufgeweckt und das Python-Skript setzt seine Schleife dort fort, wo es angehalten wurde.

Wenn das Skript nach dem Aufwachen aus dem Ruhezustand versucht, eine Inferenz auszuführen, wird dieser Fehler ausgegeben:

EI Error Code: [1, 4, 1]
EI Error Description: Internal error
EI Request ID: PT-1F304B24-DCB7-48A0-8ABB-0D30XXXXXXXX  --  EI Accelerator ID: eia-7646efb5xxxxxxxxxxxxxxxxxxxxxxxx
EI Client Version: 1.7.0

Wenn ich nicht in den Ruhezustand versetze (entweder kontinuierlich laufen lasse oder einen vollständigen Stopp/Start ausführe), ist alles in Ordnung.

Ich bevorzuge den Ruhezustand, da beim Aufwachen die Auftragsverarbeitung viel schneller fortgesetzt wird als bei einem Kaltstart.

Wie kann das oben genannte Problem behoben werden?

Ich könnte mir vorstellen, dass während der Ausführung des Skripts eine Prozess-/Speicherverknüpfung mit dem EI-Beschleuniger besteht, die im Ruhezustand verloren geht. Gibt es keine Möglichkeit, diese Verknüpfung dauerhaft zu machen?

verwandte Informationen