GCEで突然ディスクI/Oが発生し、SSH接続できなくなりました

GCEで突然ディスクI/Oが発生し、SSH接続できなくなりました

私は GPU を使用して GCE で長時間のジョブを実行しています。これはプリエンプティブ インスタンスではありません。

インスタンス上で SSH と TMUX を使用してローカル ターミナルでジョブを監視していたため、SSH 接続が切断されてもジョブは実行され続けます。画面がフリーズしたため、別のターミナル ウィンドウから SSH を試みましたが、SSH もフリーズしました。

何が起こっているのかを確認するために Google クラウド コンソールにアクセスしたところ、多数のディスク読み取りが行われていました。

ここに画像の説明を入力してください

私が行った操作によってディスクの読み取りが妨げられたことはないと確信しています。

何が起こっているのか分かりますか? ジョブがまだ実行中であることを望みます。また最初からやり直したくないので、インスタンスを停止して再起動したくありません。

答え1

これはメモリとスワップの問題であるという Womble の意見は正しいと思います。

インスタンスが動作しているときに、SSH で接続して小さなジョブを実行したところ、メモリ要件が限界を超えたと思います。この状態が数時間続いたため、インスタンスを停止して再起動しました。

ジョブを最初からやり直すと、問題が再び発生しました。ジョブは以前は機能していたので、このインスタンスを完全に消去し、最初から新しいインスタンスを作成して、再び機能することを期待します。

すでに最大限に使用しているため、メモリを増やすことはできません。

関連情報