まとめ:
複数の Kubernetes (k8s) クラスターで Prometheus と Cadvisor を使用して、ネットワーク トラフィックの使用状況を監視しています。クエリで container_network_receive_bytes_total メトリックを使用して、ネットワーク トラフィックの合計使用量を計算しています。ただし、クラスターの 1 つで異常な問題が発生しています。
問題:
私のクラスターの 1 つに、20 日間問題なく動作している非本番データベースがあります。しかし、昨日から、負荷が増加していないと確信しているにもかかわらず、container_network_receive_bytes_total メトリックの使用量が急増しています。この問題は孤立したものではありません。同様の現象に何度も遭遇しており、すべてこの特定のクラスターで発生しているようです。再現するためにさまざまな方法を試みましたが、できませんでした。
私が使用しているクエリは次のとおりです:
(
sum (
increase (
container_network_transmit_bytes_total{namespace="TEST"}[2d]
)
) by (node, cluster, namespace, pod)
) / 1000000000
そしてこれがスパイクです: ここ
この問題の根本的な原因はこのクラスター内にあると考えていますが、トラブルシューティングと解決方法についてのガイダンスやヒントを求めています。