Estou executando um longo trabalho no GCE com uma GPU. Não é uma instância preemptiva.
Eu estava monitorando o trabalho em um terminal local com SSH e TMUX na instância para que ele continuasse funcionando se a conexão SSH fosse interrompida. A tela congelou, então tentei fazer o SSH de outra janela do terminal, mas o SSH também congelou.
Fui ao console da nuvem do Google para tentar ver o que está acontecendo e há muitas leituras de disco acontecendo:
Tenho certeza de que nada do que fiz causou a leitura do disco.
alguma ideia do que está acontecendo? Espero que meu trabalho ainda esteja em execução e não quero recomeçar, então prefiro não parar e reiniciar minha instância.
Responder1
Acho que Womble está certo ao dizer que é um problema de memória e troca.
Quando a instância estava funcionando, entrei em SSH e executei um pequeno trabalho rápido, e acho que isso levou os requisitos de memória ao limite. Essa condição durou horas, então parei e reiniciei a instância.
Quando comecei o trabalho do zero, o problema aconteceu novamente. O trabalho funcionou anteriormente, então vou eliminar completamente esta instância e criar uma nova do zero e esperar que funcione novamente.
Não consigo aumentar a memória porque já estou usando o máximo.