У меня есть модуль, который в последнее время, похоже, дает сбой, kubectl get pods
показывает 16 перезапусков, но когда я смотрю мониторинг, все метрики, в названии которых есть слово «перезапуск», пусты.
Нужно ли мне что-то явно включать, чтобы это контролировалось?
решение1
Чтобы устранить неполадки, связанные со сбоем Pod, сначала следует ознакомиться с его описанием:
$ kubectl describe pod -n ci clair-kube-7c8d8cf949-nlhv8
Containers:
clair:
[...]
State: Running
Started: Wed, 19 Aug 2020 22:06:54 +0200
Last State: Terminated
Reason: OOMKilled
Exit Code: 137
Started: Wed, 19 Aug 2020 13:07:51 +0200
Finished: Wed, 19 Aug 2020 22:06:53 +0200
Ready: True
Restart Count: 42
Здесь совершенно очевидно, что мне следует увеличить лимит памяти контейнера.
Иногда вы можете не увидеть причину, только код выхода. В конце концов, вы научитесь распознавать их, ... Сначала вам придется искать предыдущие логи контейнера:
$ kubectl logs -n ci cassandra-kube-2 -c exporter -p --tail=XX
[...]
Exception in thread "pool-1-thread-33" Exception in thread "pool-1-thread-34" java.lang.OutOfMemoryError: Java heap space
java.lang.OutOfMemoryError: Java heap space