¿Deberían incluirse aspectos como el rendimiento de la base de datos en una verificación de estado?

Question

Probablemente no debería monitorear el rendimiento de la base de datos a través de las rutas de verificación de estado de la aplicación; pueden ocurrir algunos casos peligrosos. Supongamos que utiliza ASG dentro de AWS y utiliza las comprobaciones de estado de LB para determinar si el ASG debe rotar las máquinas. Si comienza a tener contención en la base de datos (no relacionada con su aplicación), su ASG comenzará a eliminar nodos. Por lo tanto, no sólo tendrá una base de datos de bajo rendimiento, sino que también tendrá un ASG agotado.

Normalmente, el rendimiento debe controlarse fuera del rango de salubridad. Usamos mucho statsd y agregamos todas nuestras métricas, aplicaciones y bases de datos para que podamos graficar y alertar en base a eso.

También tenga en cuenta que a medida que escala, la velocidad de su verificación de estado también aumentará: tenemos algunos servicios que reciben miles de solicitudes de verificación de estado por segundo, y si cada una de ellas realiza una consulta sintética costosa, nuestra capa de datos se desconectaría. .

La lógica también se vuelve más compleja a medida que agrega capas de almacenamiento en caché: ¿qué debería devolver el punto final de verificación de estado si la base de datos está en buen estado pero su caché KV no?

En general, si bien el monitoreo de extremo a extremo es fundamental para una estrategia de monitoreo efectiva, recomiendo encarecidamente el monitoreo fuera de banda para las métricas de consulta existentes que fluyen a la base de datos; son representativas del rendimiento real del usuario y le proporcionarán una métrica cuantificable para cómo se está desempeñando realmente el estado de su aplicación.

Answer 1

Probablemente no debería monitorear el rendimiento de la base de datos a través de las rutas de verificación de estado de la aplicación; pueden ocurrir algunos casos peligrosos. Supongamos que utiliza ASG dentro de AWS y utiliza las comprobaciones de estado de LB para determinar si el ASG debe rotar las máquinas. Si comienza a tener contención en la base de datos (no relacionada con su aplicación), su ASG comenzará a eliminar nodos. Por lo tanto, no sólo tendrá una base de datos de bajo rendimiento, sino que también tendrá un ASG agotado.

Normalmente, el rendimiento debe controlarse fuera del rango de salubridad. Usamos mucho statsd y agregamos todas nuestras métricas, aplicaciones y bases de datos para que podamos graficar y alertar en base a eso.

También tenga en cuenta que a medida que escala, la velocidad de su verificación de estado también aumentará: tenemos algunos servicios que reciben miles de solicitudes de verificación de estado por segundo, y si cada una de ellas realiza una consulta sintética costosa, nuestra capa de datos se desconectaría. .

La lógica también se vuelve más compleja a medida que agrega capas de almacenamiento en caché: ¿qué debería devolver el punto final de verificación de estado si la base de datos está en buen estado pero su caché KV no?

En general, si bien el monitoreo de extremo a extremo es fundamental para una estrategia de monitoreo efectiva, recomiendo encarecidamente el monitoreo fuera de banda para las métricas de consulta existentes que fluyen a la base de datos; son representativas del rendimiento real del usuario y le proporcionarán una métrica cuantificable para cómo se está desempeñando realmente el estado de su aplicación.

¿Deberían incluirse aspectos como el rendimiento de la base de datos en una verificación de estado?

Respuesta1

información relacionada