Estou usando o Google Kubernetes Engine, onde o pool de nós do meu cluster está conectado a instâncias do Compute Engine definidas por modelos de instância. Estou controlando esses modelos de instância por grupos de instâncias gerenciadas.
Para o problema: vejo que meu modelo de instância foi substituído por uma espécie de modelo de instância substituto que é criado automaticamente. Como o modelo de instância de fallback é de um tipo de máquina inferior, isso resulta em uma interrupção em nosso cluster, pois alguns serviços não podem ser agendados.
Consegui encontrar logs no Logs Explorer com o mesmo carimbo de data/hora em que o novo modelo de instância substituto foi criado (captura de tela em anexo). "logs-explorer.png" mostra que a conta de serviço, por algum motivo, tenta excluir um grupo de instâncias que nem existe. Os logs refletem isso mostrando um erro. Alguns minutos depois parece que um modelo de instância foi criado. Se eu for para Compute Engine -> Modelos de instância, ele mostra que o modelo de instância substituto foi criado em "13 de agosto de 2023, 12h13min03s" e está em uso atualmente. Isso significa que ele criou automaticamente este modelo de instância e o definiu como padrão.
Você acha que é um problema de permissão nos modelos de instância? Estou vendo que o modelo de instância substituto (que não deve ser usado) está configurado com a conta de serviço padrão e parece funcionar de forma consistente. O outro modelo de instância (que deve ser usado) está configurado com uma conta de serviço diferente ([e-mail protegido]) e parece que algo não está funcionando aí. Funciona por um certo tempo, mas depois de algumas semanas (durante a janela de manutenção do cluster) um modelo de instância substituto é criado e usado como padrão automaticamente. Talvez durante a janela de manutenção algumas permissões sejam recuperadas e algo não esteja funcionando como deveria. Se essa for a direção certa, quais permissões devo conceder à conta de serviço? Se você acha que não é um problema de permissão na conta de serviço, qual mais poderia ser o problema?
Também testei a alteração de permissões para a conta de serviço ([e-mail protegido]) com o Policy Simulator, mas recebendo erros ao testar as alterações ("policy-simulator.png"), o que significa que o Policy Simulator não conseguiu determinar se o resultado da tentativa de acesso mudaria de acordo com a política de permissão proposta.
Obrigado por ler e realmente aprecio seu esforço. Atenciosamente
Responder1
Encontrei a seguinte seção durante a criação do MIG que pode estar relacionada ao problema: seção mig
Por esse motivo o modelo de instância inicial foi utilizado sempre que houve uma janela de manutenção. Vou continuar investigando.