На GCE произошел внезапный дисковый ввод-вывод и больше не удается подключиться по SSH

На GCE произошел внезапный дисковый ввод-вывод и больше не удается подключиться по SSH

Я запускал длинную работу на GCE с GPU. Это не вытесняемый экземпляр.

Я отслеживал работу на локальном терминале с SSH и TMUX на экземпляре, чтобы она продолжала работать, если соединение SSH разорвется. Экран завис, поэтому я попытался подключиться по SSH из другого окна терминала, но SSH тоже завис.

Я зашел в облачную консоль Google, чтобы попытаться увидеть, что происходит, и обнаружил, что происходит много операций чтения с диска:

введите описание изображения здесь

Я почти уверен, что мои действия не привели к чтению диска.

Есть идеи, что происходит? Надеюсь, моя работа все еще выполняется, и я не хочу начинать все сначала, поэтому я бы предпочел не останавливать и не перезапускать свой экземпляр.

решение1

Я думаю, Уомбл прав, что это проблема памяти и подкачки.

Когда экземпляр работал, я подключился по SSH и запустил небольшую быструю задачу, и я думаю, что это превысило требования к памяти. Это состояние длилось несколько часов, поэтому я остановил и перезапустил экземпляр.

Когда я начал работу с нуля, проблема повторилась. Работа работала раньше, поэтому я собираюсь полностью удалить этот экземпляр и создать новый с нуля, и надеяться, что он снова заработает.

Я не могу увеличить объем памяти, так как уже использую максимум.

Связанный контент