En GCE, E/S repentina del disco y ya no se puede utilizar SSH en

En GCE, E/S repentina del disco y ya no se puede utilizar SSH en

He estado ejecutando un largo trabajo en GCE con una GPU. No es un caso preferible.

Estaba monitoreando el trabajo en una terminal local con SSH y TMUX en la instancia para que siga ejecutándose si se interrumpe la conexión SSH. La pantalla se congeló, así que intenté utilizar SSH desde otra ventana de terminal, pero SSH también se congeló.

Fui a la consola en la nube de Google para intentar ver qué estaba pasando y se estaban realizando muchas lecturas de disco:

ingrese la descripción de la imagen aquí

Estoy bastante seguro de que nada de lo que he hecho ha provocado las lecturas del disco.

¿Alguna idea de lo que está pasando? Espero que mi trabajo siga ejecutándose y no quiero empezar de nuevo, así que prefiero no detenerme y reiniciar mi instancia.

Respuesta1

Creo que Womble tiene razón en que es una cuestión de memoria e intercambio.

Cuando la instancia estaba funcionando, entré por SSH y ejecuté un pequeño trabajo rápido, y creo que eso llevó los requisitos de memoria al límite. Esta condición duró horas, así que detuve y reinicié la instancia.

Cuando comencé el trabajo desde cero, el problema volvió a ocurrir. El trabajo funcionó anteriormente, así que borraré esta instancia por completo y crearé una nueva desde cero y espero que funcione nuevamente.

No puedo aumentar la memoria porque ya estoy usando el máximo.

información relacionada