
Cuido un demonio de Python en una instancia EC2, observo los trabajos entrantes y ejecuto inferencias de PyTorch en ellos.Inferencia elástica.
Cuando no hay trabajo, yohibernarla instancia. Cuando hay trabajos, la instancia se activa y el script de Python continúa su ciclo desde donde estaba congelado.
Cuando el script intenta ejecutar una inferencia después de salir de la hibernación, arroja este error:
EI Error Code: [1, 4, 1]
EI Error Description: Internal error
EI Request ID: PT-1F304B24-DCB7-48A0-8ABB-0D30XXXXXXXX -- EI Accelerator ID: eia-7646efb5xxxxxxxxxxxxxxxxxxxxxxxx
EI Client Version: 1.7.0
Si no hiberno (o ejecuto continuamente o hago una parada/inicio completo), entonces todo está bien.
Prefiero hibernar ya que al despertar se reanuda el procesamiento del trabajo mucho más rápido que un inicio en frío.
¿Cómo depurar el problema anterior?
Me imagino que hay alguna asociación de proceso/memoria con el acelerador EI cuando se ejecuta el script, y que se pierde durante la hibernación. ¿No hay manera de hacer que persista?