データベースのパフォーマンスなどはヘルスチェックに含めるべきでしょうか

Question

アプリケーションのヘルスチェックパスを介してデータベースのパフォーマンスを監視することはおそらく避けてください。危険なケースが発生する場合があります。AWS 内で ASG を使用し、LB ヘルスチェックを使用して ASG がマシンをローテーションする必要があるかどうかを判断するとします。データベースの競合 (アプリケーションとは無関係) が発生し始めると、ASG はノードの削除を開始します。そのため、データベースのパフォーマンスが低下するだけでなく、ASG も枯渇します。

通常、パフォーマンスは健全性の帯域外で監視する必要があります。当社では statsd を頻繁に使用し、すべてのメトリック、アプリケーション、データベースを statsd に投入して、それに基づいてグラフ化やアラート生成を行っています。

また、規模を拡大すると、ヘルスチェックの速度も拡大することにも留意してください。1 秒間に何千ものヘルスチェック要求を受信するサービスがあり、そのそれぞれが合成の高価なクエリを実行している場合、データレイヤーはオフラインになります。

キャッシュレイヤーを追加すると、ロジックも複雑になります。データベースは正常だが KV キャッシュが正常でない場合、ヘルスチェックエンドポイントは何を返すべきでしょうか。

全体的に、エンドツーエンドの監視は効果的な監視戦略にとって重要ですが、データベースに流れている既存のクエリメトリックについては、アウトオブバンド監視を強くお勧めします。これらは実際のユーザーパフォーマンスを表し、アプリケーションの健全性が実際にどのように機能しているかを定量化できるメトリックを提供します。

Answer 1