
私はEC2インスタンスでPythonデーモンを監視し、入ってくるジョブを監視し、それらに対してPyTorch推論を実行しています。弾性推論。
仕事がないときは、冬眠するインスタンス。ジョブがある場合、インスタンスは起動され、Python スクリプトはフリーズした場所からループを続行します。
スクリプトが休止状態から復帰した後に推論を実行しようとすると、次のエラーがスローされます。
EI Error Code: [1, 4, 1]
EI Error Description: Internal error
EI Request ID: PT-1F304B24-DCB7-48A0-8ABB-0D30XXXXXXXX -- EI Accelerator ID: eia-7646efb5xxxxxxxxxxxxxxxxxxxxxxxx
EI Client Version: 1.7.0
休止状態にしない場合(連続実行または完全な停止/起動のいずれかを実行した場合)、すべて正常です。
休止状態は、コールド スタートよりも起動時のジョブ処理の再開がはるかに速いため、私は休止状態を好みます。
上記の問題をデバッグするにはどうすればよいでしょうか?
スクリプトの実行中は EI アクセラレータとの何らかのプロセス/メモリの関連付けがあり、休止状態ではそれが失われるのではないかと思います。これを永続化する方法はありませんか?