
AWS にデプロイされた本番環境の KOPS Kubernetes v1.20 が不健全です。断続的に、3 つのマスター ノードのうち 1 つが頻繁にNot Ready
ステータスになります。さらに、kube-apiserver ポッドが異常に再起動しています (1 時間に 50 回の再起動)。他の 2 つのマスター ノードは正常に動作しています。実行すると、kubectl get cs
etcd の 1 つが のUnhealthy
状態になることがあります。これは、またはHTTP error 503
を実行している場合と同じ出力です。これらのコマンドがすべて正常な場合もあれば、そうでない場合もあります。kubectl get --raw='/readyz?verbose'
kubectl get --raw='/livez?verbose'
また、問題のあるマスターノードで実行されている問題のある kube-apiserver ポッドの以前のログには、 が表示されますetcd failed: error getting data from etcd: context deadline exceeded
。
当社の事業は引き続き運営されていますが、将来的に作業負荷が増加し、別のマスターが故障する可能性がある場合には、稼働中の 2 つのマスター ノードが対応できなくなるのではないかと心配しています。