我有一個 Pod 最近似乎崩潰了,kubectl get pods
顯示 16 次重新啟動,但是當我查看監控時,名稱中帶有“重新啟動”的所有指標都是空的。
我是否需要明確打開某些東西以便對其進行監控?
答案1
要對某些崩潰的 Pod 進行故障排除,首先您應該查看其描述:
$ kubectl describe pod -n ci clair-kube-7c8d8cf949-nlhv8
Containers:
clair:
[...]
State: Running
Started: Wed, 19 Aug 2020 22:06:54 +0200
Last State: Terminated
Reason: OOMKilled
Exit Code: 137
Started: Wed, 19 Aug 2020 13:07:51 +0200
Finished: Wed, 19 Aug 2020 22:06:53 +0200
Ready: True
Restart Count: 42
在這裡,很明顯我應該提高容器記憶體限制。
有時,您可能看不到原因,只看到退出代碼。最終,您將學會識別它們,...首先,您必須尋找先前的容器日誌:
$ kubectl logs -n ci cassandra-kube-2 -c exporter -p --tail=XX
[...]
Exception in thread "pool-1-thread-33" Exception in thread "pool-1-thread-34" java.lang.OutOfMemoryError: Java heap space
java.lang.OutOfMemoryError: Java heap space