
Eu cuido de um daemon Python em uma instância EC2, observando os trabalhos recebidos e executando inferências PyTorch neles emInferência Elástica.
Quando não há empregos, euhibernara instância. Quando há trabalhos, a instância é ativada e o script Python continua seu loop de onde foi congelado.
Quando o script tenta executar uma inferência após sair da hibernação, ele gera este erro:
EI Error Code: [1, 4, 1]
EI Error Description: Internal error
EI Request ID: PT-1F304B24-DCB7-48A0-8ABB-0D30XXXXXXXX -- EI Accelerator ID: eia-7646efb5xxxxxxxxxxxxxxxxxxxxxxxx
EI Client Version: 1.7.0
Se eu não hibernar (executar continuamente ou parar/iniciar totalmente), tudo estará bem.
Prefiro hibernar, pois ao acordar retoma o processamento do trabalho muito mais rápido do que uma inicialização a frio.
Como depurar o problema acima?
Eu imagino que haja alguma associação de processo/memória com o acelerador EI quando o script está em execução e isso é perdido na hibernação. Não há como fazer isso persistir?