Spitze in der Cadvisor-Metrik „container_network_receive_bytes_total“ in einem Kubernetes-Cluster

Spitze in der Cadvisor-Metrik „container_network_receive_bytes_total“ in einem Kubernetes-Cluster

Zusammenfassung:

Ich verwende Cadvisor mit Prometheus in mehreren Kubernetes-Clustern (k8s), um die Nutzung des Netzwerkverkehrs zu überwachen. Ich verwende die Metrik container_network_receive_bytes_total in einer Abfrage, um die gesamte Nutzung des Netzwerkverkehrs zu berechnen. In einem der Cluster stoße ich jedoch auf ein ungewöhnliches Problem.

Problem:

In einem meiner Cluster habe ich eine Nicht-Produktionsdatenbank, die seit 20 Tagen reibungslos läuft. Seit gestern zeigt die Metrik container_network_receive_bytes_total jedoch einen deutlichen Anstieg der Nutzung, obwohl ich sicher bin, dass die Belastung nicht zunimmt. Dieses Problem ist kein Einzelfall. Ich bin mehrmals auf ähnliche Vorkommnisse gestoßen, und sie scheinen alle in diesem bestimmten Cluster aufzutreten. Ich habe zahlreiche Versuche unternommen, das Problem zu reproduzieren, aber es ist mir nicht gelungen.

Dies ist die Abfrage, die ich verwende:

(
    sum (
        increase (
            container_network_transmit_bytes_total{namespace="TEST"}[2d]
        )
    ) by (node, cluster, namespace, pod)
) / 1000000000

Und das ist der Spike: Hier

Ich glaube, dass die Grundursache dieses Problems in diesem Cluster liegt, aber ich bin auf der Suche nach Anleitungen oder Hinweisen zur Fehlersuche und Lösung.

verwandte Informationen