Sollten Dinge wie die Datenbankleistung in einen Healthcheck einbezogen werden?

Question

Sie sollten die Datenbankleistung wahrscheinlich nicht über die Integritätsprüfpfade der Anwendung überwachen - es können einige gefährliche Fälle auftreten. Angenommen, Sie verwenden ASGs innerhalb von AWS und verwenden die LB-Integritätsprüfungen, um zu bestimmen, ob die ASG Maschinen rotieren soll. Wenn es zu Datenbankkonflikten kommt (die nichts mit Ihrer App zu tun haben), beginnt Ihre ASG damit, Knoten zu entfernen. Sie haben also nicht nur eine Datenbank mit schlechter Leistung, sondern auch eine erschöpfte ASG.

Normalerweise sollte die Leistung außerhalb des Integritätsbereichs überwacht werden. Wir verwenden statsd intensiv und pumpen alle unsere Messdaten, Anwendungen und Datenbanken hinein, damit wir darauf basierend Diagramme erstellen und Warnmeldungen ausgeben können.

Bedenken Sie beim Skalieren auch, dass die Geschwindigkeit Ihrer Integritätsprüfung ebenfalls skaliert wird. Wir haben einige Dienste, die Tausende von Integritätsprüfungsanforderungen pro Sekunde erhalten, und wenn jede dieser Anforderungen eine synthetische, teure Abfrage ausführt, würde unsere Datenebene offline gehen.

Die Logik wird auch komplexer, wenn Sie Caching-Ebenen hinzufügen – was soll der Integritätsprüfungs-Endpunkt zurückgeben, wenn die Datenbank fehlerfrei ist, Ihr KV-Cache jedoch nicht?

Obwohl eine End-to-End-Überwachung für eine effektive Überwachungsstrategie von entscheidender Bedeutung ist, würde ich für die vorhandenen Abfragemetriken, die an die Datenbank gesendet werden, dringend eine Out-of-Band-Überwachung empfehlen. Diese sind repräsentativ für die tatsächliche Benutzerleistung und bieten Ihnen eine quantifizierbare Kennzahl für die tatsächliche Leistung Ihrer Anwendung.

Answer 1

Sie sollten die Datenbankleistung wahrscheinlich nicht über die Integritätsprüfpfade der Anwendung überwachen - es können einige gefährliche Fälle auftreten. Angenommen, Sie verwenden ASGs innerhalb von AWS und verwenden die LB-Integritätsprüfungen, um zu bestimmen, ob die ASG Maschinen rotieren soll. Wenn es zu Datenbankkonflikten kommt (die nichts mit Ihrer App zu tun haben), beginnt Ihre ASG damit, Knoten zu entfernen. Sie haben also nicht nur eine Datenbank mit schlechter Leistung, sondern auch eine erschöpfte ASG.

Normalerweise sollte die Leistung außerhalb des Integritätsbereichs überwacht werden. Wir verwenden statsd intensiv und pumpen alle unsere Messdaten, Anwendungen und Datenbanken hinein, damit wir darauf basierend Diagramme erstellen und Warnmeldungen ausgeben können.

Bedenken Sie beim Skalieren auch, dass die Geschwindigkeit Ihrer Integritätsprüfung ebenfalls skaliert wird. Wir haben einige Dienste, die Tausende von Integritätsprüfungsanforderungen pro Sekunde erhalten, und wenn jede dieser Anforderungen eine synthetische, teure Abfrage ausführt, würde unsere Datenebene offline gehen.

Die Logik wird auch komplexer, wenn Sie Caching-Ebenen hinzufügen – was soll der Integritätsprüfungs-Endpunkt zurückgeben, wenn die Datenbank fehlerfrei ist, Ihr KV-Cache jedoch nicht?

Obwohl eine End-to-End-Überwachung für eine effektive Überwachungsstrategie von entscheidender Bedeutung ist, würde ich für die vorhandenen Abfragemetriken, die an die Datenbank gesendet werden, dringend eine Out-of-Band-Überwachung empfehlen. Diese sind repräsentativ für die tatsächliche Benutzerleistung und bieten Ihnen eine quantifizierbare Kennzahl für die tatsächliche Leistung Ihrer Anwendung.

Sollten Dinge wie die Datenbankleistung in einen Healthcheck einbezogen werden?

Antwort1

verwandte Informationen