從休眠狀態喚醒後,AWS Elastic Inference 無法運作

從休眠狀態喚醒後,AWS Elastic Inference 無法運作

我在 EC2 執行個體中託管一個 Python 守護進程,監視傳入的作業並在其中執行 PyTorch 推理彈性推理

當沒有工作的時候,我休眠實例。當有作業時,實例被喚醒,Python 腳本從凍結的地方繼續循環。

當腳本從休眠狀態喚醒後嘗試執行推理時,會拋出以下錯誤:

EI Error Code: [1, 4, 1]
EI Error Description: Internal error
EI Request ID: PT-1F304B24-DCB7-48A0-8ABB-0D30XXXXXXXX  --  EI Accelerator ID: eia-7646efb5xxxxxxxxxxxxxxxxxxxxxxxx
EI Client Version: 1.7.0

如果我不休眠(連續運行或完全停止/啟動),那麼一切都好。

我更喜歡休眠,因為醒來恢復工作處理比冷啟動快得多。

如何調試上述問題?

我想當腳本運行時,與 EI 加速器存在一些進程/記憶體關聯,並且在休眠時會丟失。難道就沒有辦法讓它堅持下去嗎?

相關內容