「ALARM」状態の AWS アラームがポリシーアクションをトリガーしない

「ALARM」状態の AWS アラームがポリシーアクションをトリガーしない

今日、私は複数のポリシーを持つ AutoScaling グループを作成しました。各ポリシーには、CloudWatch メトリクスに関連付けられたアラームがあります。AutoScaling グループは、そのグループに必要な最小値である 2 つのインスタンスを起動しました。新しいグループをヒットするためにベンチマーク テストをオンにしたところ、それらの合計平均 CPUUtilization がアラームに設定したしきい値を超えました。各アラームの履歴を監視し、状態が INSUFFICIENT_DATA から OK、そして最後に ALARM に変化しました。予想どおりです。次に、ポリシーが実行されるまで待機しました。実行前に指定された 300 秒が経過しました。次に、ポリシーが実行されるまでにかかる時間を確認することにしました。現在、1 時間半以上が経過しましたが、これらのポリシーはまだ実行されていません。

イライラして、ASG とすべてのポリシーおよびアラームを削除しました。ポリシーとアラームの作成時にエラーが発生した可能性があると判断しました。そのため、すべてを再作成しました。問題は同じです。アラームは ALARM 状態にあり、ポリシーは実行されません。ポリシーは手動で問題なく実行できますが、それでは意味がありません。

違いがあるかどうかはわかりませんが、私はこれらすべてを AWS コンソールで作成しました。これまで、API を使用して ASG とポリシーを作成してきましたが、それらのグループはポリシーを問題なく実行していました。

何か間違っているのでしょうか? (あるいは AWS サービスに問題があるだけかもしれません。)

アップデート:

今日、これをもう一度試してみました。コンソールの代わりに API を使用して、違いがあるかどうかを確認することにしました。使用しているアラームは、20 分前に OK から ALARM に更新されました。

CPUUtilization >= 35 for 5 minutes
Actions: In ALARM: For group TEST use policy Scale Out API (Add 1 instance)
Namespace: AWS/EC2
Metric Name: CPUUtilization
Dimensions: AutoScalingGroupName = TEST
Statistic: Average
Period: 5 minutes

2013-12-19 15:13 UTC-7 - 状態更新 - アラームが OK から ALARM に更新されました

現在の時刻: 15:43 UTC-7 (アラームから30分)

アクションがトリガーされませんでした。理由が分かりますか?

答え1

私はこの質問をAmazon フォーラムどうやら、アラームの作成時に「ActionsEnabled」プロパティが自動的に False に設定される最近のバグがあるようです。

AWS から:

We have identified an issue in the AutoScaling console regarding the binding of
AutoScaling policies to CloudWatch alarms and are working on a fix. We will post
an update to this thread once the fix is rolled out. Thanks for bringing this to
our attention.

現時点での回避策:

In the meantime, please try calling the DescribeAlarms CloudWatch API. If the
alarms associated with your policies have ActionsEnabled=false, then this could
cause your policies to not be invoked when the alarm is triggered. Please try
calling the PutMetricAlarm CloudWatch API to update ActionsEnabled=true for the
affected alarms, and that should fix the issues you are experiencing.

私は API を通じて自分のアラームでバグと回避策を確認しました。

関連情報