Я запускал длинную работу на GCE с GPU. Это не вытесняемый экземпляр.
Я отслеживал работу на локальном терминале с SSH и TMUX на экземпляре, чтобы она продолжала работать, если соединение SSH разорвется. Экран завис, поэтому я попытался подключиться по SSH из другого окна терминала, но SSH тоже завис.
Я зашел в облачную консоль Google, чтобы попытаться увидеть, что происходит, и обнаружил, что происходит много операций чтения с диска:
Я почти уверен, что мои действия не привели к чтению диска.
Есть идеи, что происходит? Надеюсь, моя работа все еще выполняется, и я не хочу начинать все сначала, поэтому я бы предпочел не останавливать и не перезапускать свой экземпляр.
решение1
Я думаю, Уомбл прав, что это проблема памяти и подкачки.
Когда экземпляр работал, я подключился по SSH и запустил небольшую быструю задачу, и я думаю, что это превысило требования к памяти. Это состояние длилось несколько часов, поэтому я остановил и перезапустил экземпляр.
Когда я начал работу с нуля, проблема повторилась. Работа работала раньше, поэтому я собираюсь полностью удалить этот экземпляр и создать новый с нуля, и надеяться, что он снова заработает.
Я не могу увеличить объем памяти, так как уже использую максимум.