在 GCE 上,突然的磁碟 I/O 且無法再透過 SSH 登入

在 GCE 上,突然的磁碟 I/O 且無法再透過 SSH 登入

我已經在 GCE 上使用 GPU 運行了很長時間的工作。它不是搶佔式實例。

我在實例上使用 SSH 和 TMUX 監視本機終端上的作業,因此如果 SSH 連線斷開,它會繼續運行。螢幕凍結了,所以我嘗試從另一個終端視窗進行 SSH,但 SSH 也凍結了。

我去Google雲端控制台嘗試看看發生了什麼,並且有大量的磁碟讀取正在進行:

在此輸入影像描述

我很確定我所做的任何事情都沒有導致磁碟讀取。

知道發生了什麼事嗎?我希望我的工作仍在運行,並且我不想重新開始,所以我不想停止並重新啟動我的實例。

答案1

我認為 Womble 是對的,這是一個內存和交換問題。

當實例運行時,我透過 SSH 登入並執行了一個小型快速作業,我認為這將記憶體需求推向了極限。這種情況持續了幾個小時,所以我停止並重新啟動了實例。

當我從頭開始工作時,問題又出現了。這項工作以前是有效的,所以我將徹底清除這個實例,並從頭開始創建一個新的實例,並希望它能再次工作。

我無法增加內存,因為我已經使用了最大值。

相關內容