Aumento en la métrica Container_network_receive_bytes_total de Cadvisor en un clúster de Kubernetes

Aumento en la métrica Container_network_receive_bytes_total de Cadvisor en un clúster de Kubernetes

Resumen:

Estoy usando Cadvisor con Prometheus en varios clústeres de Kubernetes (k8s) para monitorear el uso del tráfico de la red. Utilizo la métrica container_network_receive_bytes_total en una consulta para calcular el uso total del tráfico de la red. Sin embargo, encuentro un problema inusual en uno de los grupos.

Problema:

En uno de mis clústeres, tengo una base de datos que no está en producción y que ha estado funcionando sin problemas durante 20 días. Sin embargo, a partir de ayer, la métrica container_network_receive_bytes_total ha mostrado un aumento significativo en el uso, aunque estoy seguro de que no hay ningún aumento en la carga. Este problema no es aislado. Me he encontrado con sucesos similares varias veces y todos parecen ocurrir en este grupo en particular. Intenté numerosos enfoques para reproducirlo, pero no pude hacerlo.

Esta es la consulta que estoy usando:

(
    sum (
        increase (
            container_network_transmit_bytes_total{namespace="TEST"}[2d]
        )
    ) by (node, cluster, namespace, pod)
) / 1000000000

Y este es el pico: aquí

Creo que la causa raíz de este problema se encuentra dentro de este grupo, pero estoy buscando orientación o pistas sobre cómo solucionarlo.

información relacionada