
저는 EC2 인스턴스에서 Python 데몬을 돌보며 들어오는 작업을 관찰하고 이에 대해 PyTorch 추론을 실행합니다.탄력적 추론.
일자리가 없을 때 나는동면하다인스턴스. 작업이 있으면 인스턴스가 깨어나고 Python 스크립트는 정지된 지점부터 루프를 계속합니다.
스크립트가 최대 절전 모드에서 깨어난 후 추론을 실행하려고 하면 다음 오류가 발생합니다.
EI Error Code: [1, 4, 1]
EI Error Description: Internal error
EI Request ID: PT-1F304B24-DCB7-48A0-8ABB-0D30XXXXXXXX -- EI Accelerator ID: eia-7646efb5xxxxxxxxxxxxxxxxxxxxxxxx
EI Client Version: 1.7.0
최대 절전 모드(지속적으로 실행하거나 완전히 중지/시작)를 수행하지 않으면 모든 것이 정상입니다.
깨어나면 콜드 스타트보다 훨씬 빠르게 작업 처리가 다시 시작되므로 최대 절전 모드를 선호합니다.
위의 문제를 디버깅하는 방법은 무엇입니까?
스크립트가 실행 중일 때 EI 가속기와 일부 프로세스/메모리 연결이 있고 최대 절전 모드에서는 손실된다고 생각합니다. 지속되게 하는 방법은 없나요?