Tengo un pod que parece estar fallando últimamente, kubectl get pods
muestra 16 reinicios, pero cuando analizo el monitoreo, todas las métricas que tienen "reiniciar" en su nombre están vacías.
¿Necesito activar algo explícitamente para que esto sea monitoreado?
Respuesta1
Para solucionar el problema de algún Pod que falla, primero debes mirar su descripción:
$ kubectl describe pod -n ci clair-kube-7c8d8cf949-nlhv8
Containers:
clair:
[...]
State: Running
Started: Wed, 19 Aug 2020 22:06:54 +0200
Last State: Terminated
Reason: OOMKilled
Exit Code: 137
Started: Wed, 19 Aug 2020 13:07:51 +0200
Finished: Wed, 19 Aug 2020 22:06:53 +0200
Ready: True
Restart Count: 42
Aquí, es bastante obvio que debería aumentar el límite de memoria de mi contenedor.
A veces, es posible que no vea el motivo, solo un código de salida. Con el tiempo, aprenderá a reconocerlos... Al principio, tendría que buscar los registros del contenedor anterior:
$ kubectl logs -n ci cassandra-kube-2 -c exporter -p --tail=XX
[...]
Exception in thread "pool-1-thread-33" Exception in thread "pool-1-thread-34" java.lang.OutOfMemoryError: Java heap space
java.lang.OutOfMemoryError: Java heap space