Auf GCE plötzlicher Festplatten-E/A und kein SSH mehr möglich

Auf GCE plötzlicher Festplatten-E/A und kein SSH mehr möglich

Ich habe einen langen Job auf GCE mit einer GPU ausgeführt. Es handelt sich nicht um eine präemptive Instanz.

Ich habe den Job auf einem lokalen Terminal mit SSH und TMUX auf der Instanz überwacht, damit er weiterläuft, wenn die SSH-Verbindung unterbrochen wird. Der Bildschirm fror ein, also versuchte ich, von einem anderen Terminalfenster aus per SSH zu kommunizieren, aber auch SSH fror ein.

Ich habe versucht, in der Google Cloud Console nachzusehen, was los ist, und dort werden zahlreiche Datenträger-Lesevorgänge ausgeführt:

Bildbeschreibung hier eingeben

Ich bin ziemlich sicher, dass nichts von dem, was ich getan habe, die Lesevorgänge auf der Festplatte verursacht hat.

Irgendeine Idee, was los ist? Ich hoffe, mein Job läuft noch und ich möchte nicht noch einmal von vorne anfangen, also würde ich meine Instanz lieber nicht anhalten und neu starten.

Antwort1

Ich denke, Womble hat Recht, dass es sich um ein Speicher- und Swap-Problem handelt.

Als die Instanz lief, habe ich mich per SSH angemeldet und einen kleinen Schnelljob ausgeführt. Ich glaube, das hat den Speicherbedarf über die Maßen getrieben. Dieser Zustand dauerte stundenlang an, also habe ich die Instanz angehalten und neu gestartet.

Als ich den Job von Grund auf neu startete, trat das Problem erneut auf. Der Job funktionierte vorher, also werde ich diese Instanz vollständig löschen und eine neue von Grund auf erstellen und hoffen, dass sie wieder funktioniert.

Ich kann den Speicher nicht erweitern, da ich bereits das Maximum ausgeschöpft habe.

verwandte Informationen