Я использую Google Kubernetes Engine, где пул узлов моего кластера подключен к экземплярам Compute Engine, определенным шаблонами экземпляров. Я управляю этими шаблонами экземпляров с помощью Managed Instance Groups.
К вопросу: Я вижу, что мой Instance Template заменен на своего рода резервный Instance Template, который создается автоматически. Поскольку резервный Instance Template имеет более низкий тип машины, это приводит к сбою в нашем кластере, поскольку некоторые службы не могут быть запланированы.
Я смог найти журналы в Logs Explorer с той же меткой времени, когда был создан новый резервный шаблон экземпляра (скриншот прилагается). "logs-explorer.png" показывает, что учетная запись службы по какой-то причине пытается удалить группу экземпляров, которая даже не существует. Журналы отражают это, показывая ошибку. Несколько минут спустя кажется, что шаблон экземпляра создан. Если я перейду в Compute Engine -> Шаблоны экземпляров, то покажется, что резервный шаблон экземпляра был создан "13 августа 2023 г., 12:13:03" и в настоящее время используется. Это означает, что он автоматически создал этот шаблон экземпляра и установил его в качестве шаблона по умолчанию.
Думаете, проблема с разрешениями на Instance Templates? Я вижу, что резервный Instance Template (который не должен использоваться) настроен с использованием Service Account по умолчанию, и это, кажется, работает стабильно. Другой Instance Template (который должен использоваться) настроен с использованием другой Service Account ([email protected]) и кажется, что там что-то не работает. Он работает определенное время, но через несколько недель (во время окна обслуживания кластера) создается резервный шаблон экземпляра, который автоматически используется по умолчанию. Возможно, во время окна обслуживания некоторые разрешения повторно извлекаются, и что-то работает не так, как должно. Если это правильное направление, какие разрешения мне следует предоставить учетной записи службы? Если вы считаете, что проблема не в разрешениях учетной записи службы, в чем еще может быть проблема?
Я также протестировал изменение разрешений для учетной записи службы ([email protected]) с помощью Policy Simulator, но при тестировании изменений возникают ошибки ("policy-simulator.png"), что означает, что Policy Simulator не смог определить, изменится ли результат попытки доступа в соответствии с предлагаемой политикой разрешения.
Спасибо за чтение, и я действительно ценю ваши усилия. С наилучшими пожеланиями
Картинки: logs-explorer,политика-симулятор
решение1
Во время создания MIG я нашел следующий раздел, который может иметь отношение к проблеме: миг-секция
По этой причине начальный шаблон экземпляра использовался всякий раз, когда было окно обслуживания. Я продолжу расследование.