gcloud GKE reinicia pods al agregar un grupo de nodos

gcloud GKE reinicia pods al agregar un grupo de nodos

Estamos utilizando el motor gcloud kubernetes para el desarrollo de algoritmos de aprendizaje automático. Configuramos un clúster con un pod para el desarrollo de código, luego iniciamos un grupo de nodos temporal con 256 minions interrumpibles para probar el algoritmo en nuestro conjunto de datos. Un desarrollador ingresa al módulo de desarrollo, edita el código y luego ejecuta un trabajo de Kuberenetes en el grupo de minions.

El problema es que, cuando creamos el grupo de nodos minions, los pods de desarrollo en el grupo predeterminado a menudo (no siempre) se eliminan y se reinician. ¿Por qué? Por lo general, el grupo de nodos minion tarda entre 3 y 5 minutos en iniciarse. Parece que gcloud tiene que actualizar el grupo de nodos predeterminado para acomodar el grupo de nodos minions. ¿Hay alguna forma de preasignar el clúster para evitar el reinicio o reducir el tiempo de inicio de los minions?

Estos son los comandos que estoy usando:

  1. crear el clúster inicial:

    gcloud beta container clusters create $CLUSTER_NAME \
            --machine-type=n1-highmem-4 \
            --min-cpu-platform="Intel Sandy Bridge" \
            --num-nodes=1 \
            --enable-autoscaling \
            --min-nodes=1 \
            --max-nodes=4 \
            --disk-size=50 \
            --node-labels=algoalpha=control \
            --scopes=cloud-platform,cloud-source-repos-ro   
    

    crear script de clúster:https://gist.github.com/4590040f27f3cf17562baae5ae245b60

  2. crear los minions

    gcloud beta container node-pools create algoalpha-minions \
           --cluster $CLUSTER_NAME \
           --enable-autoscaling \
           --num-nodes=$NUM_NODES \
           --min-nodes=0 \
           --max-nodes=$((NUM_NODES * 2)) \
           --preemptible \
           --machine-type=n1-highmem-16 \
           --disk-size=20 \
           --min-cpu-platform="Intel Sandy Bridge" \
           --node-labels=algoalpha=minion \
           --node-taints=cloud.google.com/gke-preemptible="true":NoSchedule
    

    crear script de minions:https://gist.github.com/1391658975d3a28444ac823233c334da

¿Hay una mejor manera de hacer esto?

información relacionada