저는 GPU를 사용하여 GCE에서 오랫동안 작업을 수행해 왔습니다. 선점형 인스턴스가 아닙니다.
SSH 연결이 끊어져도 계속 실행되도록 인스턴스에서 SSH 및 TMUX를 사용하여 로컬 터미널에서 작업을 모니터링하고 있었습니다. 화면이 멈춰서 다른 터미널 창에서 SSH를 시도했는데 SSH도 멈췄습니다.
무슨 일이 일어나고 있는지 확인하기 위해 Google 클라우드 콘솔로 이동했는데 많은 디스크 읽기가 진행되고 있습니다.
나는 내가 한 일이 디스크 읽기를 유발하지 않았다고 확신합니다.
무슨 일이 일어나고 있는지 아시나요? 내 작업이 계속 실행되기를 바라며 다시 시작하고 싶지 않으므로 인스턴스를 중지했다가 다시 시작하지 않는 것이 좋습니다.
답변1
나는 그것이 메모리와 스왑 문제라는 Womble의 말이 옳다고 생각합니다.
인스턴스가 작동 중일 때 SSH를 연결하여 작고 빠른 작업을 실행했는데 이로 인해 메모리 요구 사항이 한계를 넘어섰던 것 같습니다. 이 상태는 몇 시간 동안 지속되었으므로 인스턴스를 중지했다가 다시 시작했습니다.
처음부터 다시 작업을 시작했는데 문제가 다시 발생했습니다. 이전에는 작업이 작동했으므로 이 인스턴스를 완전히 지우고 처음부터 새 인스턴스를 생성하여 다시 작동하기를 바랍니다.
이미 최대 용량을 사용하고 있어서 메모리를 늘릴 수 없습니다.