我們正在谷歌雲端中使用 GPU 實例來執行機器學習相關服務。 Google 雲端為其 GPU 執行個體制定了這些計劃外的維護計劃。在執行個體關閉進行維護之前,Google Cloud api 會在執行個體關閉前 1 小時向該執行個體發送通知。
假設 GPU 執行個體名為“vm1”,一旦“vm1”收到稍後將進行維護的通知,我們希望啟動一個備份 GPU 實例“vm1-duplicate”,以便為我們的客戶端提供服務受本次維護影響。一旦“vm1”的維護完成,請停止“vm1-duplicate”,這樣就不會產生額外的費用。
谷歌雲端中有沒有一種優雅的方法來根據某些條件/觸發器/事件來編程這樣的自動虛擬機啟動/停止?
答案1
超快速的解決方案:在虛擬機器中安裝 gcloud(應該已經存在),建立一個服務帳戶 [1],建立一個小型 shell 腳本並每 15/30 分鐘在 cron 中執行一次。
此腳本將監視事件 http 端點 [2],並透過 gcloud cmd 行從虛擬機器內重新產生一個新虛擬機器。停止自動重新啟動並保持新虛擬機器正常運作。
如果它有效,請考慮使用已就位的腳本並配置 cron 來派生您自己的映像。所以重生會比較容易。
[1]不是強制性的,只是為了避免將您的憑證放入虛擬機器中
[2]https://cloud.google.com/compute/docs/gpus/gpu-host-maintenance