保持失效執行個體處於活動狀態以便在 AWS Auto Scaling 群組中進行分析

2024-6-26 • tag-icon

amazon-ec2 amazon-web-services

保持失效執行個體處於活動狀態以便在 AWS Auto Scaling 群組中進行分析

我們在 AWS 上以小型自動伸縮群組（通常為 2-4 個執行個體）執行一些 Web 伺服器。其運行狀況檢查基於 ELB 運行狀況檢查，因此如果其中一台 Web 伺服器停止回應，它將被新實例取代。

目前，這項措施運作良好。如果發生中斷，無回應的伺服器將被終止，並啟動新的伺服器來取代它們。

問題是我們目前不知道為什麼伺服器會宕機。我們從一些日誌中得到了一些懷疑，但我們無法再登入伺服器、查看網路日誌、系統日誌或其他任何內容。

我知道有一種方法可以手動從自動擴展組中分離實例，但是有沒有辦法在發生故障時自動執行此操作？

這就是我希望發生的情況，當伺服器發生故障時，它會保持運行狀態，但從自動縮放群組中刪除，以便我們可以分析它以查看出了什麼問題。一個明顯的好處是限制這種情況發生的頻率，這樣如果由於某種原因它不斷循環伺服器，我們就不會出現數百個分離的實例。

那麼這可以透過某種方式完成嗎？

答案1

有一些方法可以做到這一點。

您可以在 ASG -> 詳細資料 -> 編輯 -> 暫停進程 -> “終止”中暫停“終止”操作。沒有機器會被終止。
您也可以透過 ASG -> 實例 -> 操作 -> 實例保護來保護特定實例。
然後，還有一些開箱即用的方法，例如當事件發生時從 ASG 中踢出實例。

相關內容