![Почему компоненты Kubernetes переходят в цикл сбоя при перезапуске сервера после установки?](https://rvso.com/image/789287/%D0%9F%D0%BE%D1%87%D0%B5%D0%BC%D1%83%20%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82%D1%8B%20Kubernetes%20%D0%BF%D0%B5%D1%80%D0%B5%D1%85%D0%BE%D0%B4%D1%8F%D1%82%20%D0%B2%20%D1%86%D0%B8%D0%BA%D0%BB%20%D1%81%D0%B1%D0%BE%D1%8F%20%D0%BF%D1%80%D0%B8%20%D0%BF%D0%B5%D1%80%D0%B5%D0%B7%D0%B0%D0%BF%D1%83%D1%81%D0%BA%D0%B5%20%D1%81%D0%B5%D1%80%D0%B2%D0%B5%D1%80%D0%B0%20%D0%BF%D0%BE%D1%81%D0%BB%D0%B5%20%D1%83%D1%81%D1%82%D0%B0%D0%BD%D0%BE%D0%B2%D0%BA%D0%B8%3F.png)
Я установил kubernetes на одноузловой сервер с помощью kubeadm. Я обнаружил, что при выполнении установки в определенном порядке все запускается и работает нормально. Это включает в себя основные компоненты системы kube (сервер api, прокси, планировщик, etcd и т. д.), которые были запущены и запущены первыми (кроме coredns), после чего был установлен плагин cilium CNI с помощью helm для работы в сети (в результате чего coredns заработал).
После этой установки я смог успешно установить и использовать другие службы, такие как NVIDIA's GPU Operator и kubeflow. Однако после перезагрузки я обнаружил, что различные компоненты входят в состояние аварийного цикла.
Я думаю, что это как-то связано с порядком инициализации различных ресурсов и длительностью различных тайм-аутов. Есть ли способ установить порядок запуска различных компонентов при загрузке? Или, возможно, настроить соответствующий тайм-аут по умолчанию или поведение pod'ов при сбое?
Вероятно, здесь имеет место эффект домино, когда сбой одного компонента приводит к сбою другого, что в свою очередь приводит к постоянному увеличению времени простоя и, в конечном итоге, к неотзывчивости кластера.
Для дополнительной информации, я сохранил правила iptables, чтобы они применялись при загрузке. Кроме того, обычно все основные компоненты переходят в состояние выполнения, за исключением планировщика kube, который остается в состоянии аварийного цикла. Затем другие компоненты также начинают падать, что выглядит как эффект домино.
До сих пор я в основном пытался обновить файлы манифеста в /etc/kubernetes/manifests/, чтобы использовать различные тайм-ауты и failureThresholds для системных подов kubernetes, однако, похоже, это не решило проблему. Я мог бы воспроизвести поведение перезапуска сервера, сначала остановив службу kubelet и уничтожив все работающие поды/контейнеры, а затем перезапустив kubelet.
решение1
Оказывается, эта проблема очень похожа на ту, что описана в этом GitHubпроблема. По сути, без указания SystemdCgroup = true
опции для моей контейнерной среды выполнения CRI (которая былаnvidia
время выполнения контейнеравместо значения по умолчанию runc
), модули продолжали необъяснимо падать. Это происходило из-за нарушения правила единственной записи cgroups, поскольку драйвер по умолчанию для управления cgroups — это , cgroupfs
который не совместим с systemd
. Вы можете увидетьдокументациядля более подробной информации. Он также включает полную спецификацию конфигурации плагина CRIздесь.
Другие соответствующие контейнерные ресурсы: