No GCE, E/S repentina de disco e não é mais possível usar SSH em

No GCE, E/S repentina de disco e não é mais possível usar SSH em

Estou executando um longo trabalho no GCE com uma GPU. Não é uma instância preemptiva.

Eu estava monitorando o trabalho em um terminal local com SSH e TMUX na instância para que ele continuasse funcionando se a conexão SSH fosse interrompida. A tela congelou, então tentei fazer o SSH de outra janela do terminal, mas o SSH também congelou.

Fui ao console da nuvem do Google para tentar ver o que está acontecendo e há muitas leituras de disco acontecendo:

insira a descrição da imagem aqui

Tenho certeza de que nada do que fiz causou a leitura do disco.

alguma ideia do que está acontecendo? Espero que meu trabalho ainda esteja em execução e não quero recomeçar, então prefiro não parar e reiniciar minha instância.

Responder1

Acho que Womble está certo ao dizer que é um problema de memória e troca.

Quando a instância estava funcionando, entrei em SSH e executei um pequeno trabalho rápido, e acho que isso levou os requisitos de memória ao limite. Essa condição durou horas, então parei e reiniciei a instância.

Quando comecei o trabalho do zero, o problema aconteceu novamente. O trabalho funcionou anteriormente, então vou eliminar completamente esta instância e criar uma nova do zero e esperar que funcione novamente.

Não consigo aumentar a memória porque já estou usando o máximo.

informação relacionada