마스터 노드 중 하나를 삭제한 후 etcd가 비정상이 됩니다. 수정 사항을 찾고 있습니다.

Question

마침내 나는 해결책을 찾았습니다.

먼저, etcd 클러스터에 여전히 남아 있는 삭제된 마스터 노드를 제거하기 위해 etcd 포드 중 하나에 연결하고 클러스터가 최종적으로 정상인지 확인해야 합니다.

**List current nodes to get failed node id**
/ # etcdctl --endpoint=https://10.0.1.31:2379 --ca-file=/etc/kubernetes/pki/etcd/ca.crt --cert-file=/etc/kubernetes/pki/etcd/peer.crt --key-file=/etc/kubernetes/pki/etcd/peer.key member list
55ab807fd1dc1d4: name=ae1-prd-lnxstgivt01.ubisoft.org peerURLs=https://10.233.42.22:2380 clientURLs=https://10.233.42.22:2379 isLeader=false
3da60ac5e6f29b0e: name=pdc-prd-lnxstginvt01.ubisoft.org peerURLs=https://10.0.1.31:2380 clientURLs=https://10.0.1.31:2379 isLeader=false
d13a6c20fbb32f2d: name=ne1-prd-lnxstgivt01.ubisoft.org peerURLs=https://10.136.66.170:2380 clientURLs=https://10.136.66.170:2379 isLeader=true

**Remove the dead one**
/ # etcdctl --endpoint=https://10.0.1.31:2379 --ca-file=/etc/kubernetes/pki/etcd/ca.crt --cert-file=/etc/kubernetes/pki/etcd/peer.crt --key-file=/etc/kubernetes/pki/etcd/peer.key member remove 55ab807fd1dc1d4
Removed member 55ab807fd1dc1d4 from cluster

**Verify it is removed**
/ # etcdctl --endpoint=https://10.0.1.31:2379 --ca-file=/etc/kubernetes/pki/etcd/ca.crt --cert-file=/etc/kubernetes/pki/etcd/peer.crt --key-file=/etc/kubernetes/pki/etcd/peer.key member list
3da60ac5e6f29b0e: name=pdc-prd-lnxstginvt01.ubisoft.org peerURLs=https://10.0.1.31:2380 clientURLs=https://10.0.1.31:2379 isLeader=false
d13a6c20fbb32f2d: name=ne1-prd-lnxstgivt01.ubisoft.org peerURLs=https://10.136.66.170:2380 clientURLs=https://10.136.66.170:2379 isLeader=true

둘째, kube-public 네임스페이스에 kubeadm-config라는 configmap이 있는데, 이는 삭제된 마스터 노드를 API 엔드포인트 중 하나로 여전히 기억합니다. 이는 etcd 클러스터 상태를 확인하는 단계에서 새 마스터 노드에 합류하는 것을 차단합니다. kubeadm이 해당 구성 맵을 읽고 삭제된 것을 확인할 etcd 노드로 가져오기 때문입니다. 따라서 해당 네임스페이스를 yaml 파일로 내보내고 파일을 편집한 후 다시 적용하여 API 엔드포인트 목록에서 삭제하세요.

kubectl get configmap kubeadm-config -n kube-system -o yaml
apiVersion: v1
data:
  …
  ClusterStatus: |
    apiEndpoints:
      ae1-prd-lnxstgivt01.ubisoft.org:
        advertiseAddress: 10.233.42.22
        bindPort: 6443
      ne1-prd-lnxstgivt01.ubisoft.org:
        advertiseAddress: 10.136.66.170
        bindPort: 6443
      pdc-prd-lnxstginvt01.ubisoft.org:
        advertiseAddress: 10.0.1.31
        bindPort: 6443
    apiVersion: kubeadm.k8s.io/v1beta1
    kind: ClusterStatus
kind: ConfigMap
metadata:
  annotations:
    kubectl.kubernetes.io/last-applied-configuration: …

테스트 버전: 1.14.3

Answer 1

마침내 나는 해결책을 찾았습니다.

먼저, etcd 클러스터에 여전히 남아 있는 삭제된 마스터 노드를 제거하기 위해 etcd 포드 중 하나에 연결하고 클러스터가 최종적으로 정상인지 확인해야 합니다.

**List current nodes to get failed node id**
/ # etcdctl --endpoint=https://10.0.1.31:2379 --ca-file=/etc/kubernetes/pki/etcd/ca.crt --cert-file=/etc/kubernetes/pki/etcd/peer.crt --key-file=/etc/kubernetes/pki/etcd/peer.key member list
55ab807fd1dc1d4: name=ae1-prd-lnxstgivt01.ubisoft.org peerURLs=https://10.233.42.22:2380 clientURLs=https://10.233.42.22:2379 isLeader=false
3da60ac5e6f29b0e: name=pdc-prd-lnxstginvt01.ubisoft.org peerURLs=https://10.0.1.31:2380 clientURLs=https://10.0.1.31:2379 isLeader=false
d13a6c20fbb32f2d: name=ne1-prd-lnxstgivt01.ubisoft.org peerURLs=https://10.136.66.170:2380 clientURLs=https://10.136.66.170:2379 isLeader=true

**Remove the dead one**
/ # etcdctl --endpoint=https://10.0.1.31:2379 --ca-file=/etc/kubernetes/pki/etcd/ca.crt --cert-file=/etc/kubernetes/pki/etcd/peer.crt --key-file=/etc/kubernetes/pki/etcd/peer.key member remove 55ab807fd1dc1d4
Removed member 55ab807fd1dc1d4 from cluster

**Verify it is removed**
/ # etcdctl --endpoint=https://10.0.1.31:2379 --ca-file=/etc/kubernetes/pki/etcd/ca.crt --cert-file=/etc/kubernetes/pki/etcd/peer.crt --key-file=/etc/kubernetes/pki/etcd/peer.key member list
3da60ac5e6f29b0e: name=pdc-prd-lnxstginvt01.ubisoft.org peerURLs=https://10.0.1.31:2380 clientURLs=https://10.0.1.31:2379 isLeader=false
d13a6c20fbb32f2d: name=ne1-prd-lnxstgivt01.ubisoft.org peerURLs=https://10.136.66.170:2380 clientURLs=https://10.136.66.170:2379 isLeader=true

둘째, kube-public 네임스페이스에 kubeadm-config라는 configmap이 있는데, 이는 삭제된 마스터 노드를 API 엔드포인트 중 하나로 여전히 기억합니다. 이는 etcd 클러스터 상태를 확인하는 단계에서 새 마스터 노드에 합류하는 것을 차단합니다. kubeadm이 해당 구성 맵을 읽고 삭제된 것을 확인할 etcd 노드로 가져오기 때문입니다. 따라서 해당 네임스페이스를 yaml 파일로 내보내고 파일을 편집한 후 다시 적용하여 API 엔드포인트 목록에서 삭제하세요.

kubectl get configmap kubeadm-config -n kube-system -o yaml
apiVersion: v1
data:
  …
  ClusterStatus: |
    apiEndpoints:
      ae1-prd-lnxstgivt01.ubisoft.org:
        advertiseAddress: 10.233.42.22
        bindPort: 6443
      ne1-prd-lnxstgivt01.ubisoft.org:
        advertiseAddress: 10.136.66.170
        bindPort: 6443
      pdc-prd-lnxstginvt01.ubisoft.org:
        advertiseAddress: 10.0.1.31
        bindPort: 6443
    apiVersion: kubeadm.k8s.io/v1beta1
    kind: ClusterStatus
kind: ConfigMap
metadata:
  annotations:
    kubectl.kubernetes.io/last-applied-configuration: …

테스트 버전: 1.14.3

마스터 노드 중 하나를 삭제한 후 etcd가 비정상이 됩니다. 수정 사항을 찾고 있습니다.

답변1

관련 정보