全世界最简单的kubernetes高可用安装工具sealos

32次阅读

共计 11416 个字符,预计需要花费 29 分钟才能阅读完成。

English docs

概述与设计原则

sealos 旨在做一个简单干净轻量级稳定的 kubernetes 安装工具,能很好的支持高可用安装。其实把一个东西做的功能强大并不难,但是做到极简且灵活可扩展就比较难。
所以在实现时就必须要遵循这些原则。

sealos 特性与优势:

  • 支持离线安装,工具与资源包(二进制程序 配置文件 镜像 yaml 文件等)分离, 这样不同版本替换不同离线包即可
  • 证书延期
  • 使用简单
  • 支持自定义配置
  • 内核负载,极其稳定,因为简单所以排查问题也极其简单

为什么不使用 ansile

1.0 版本确实是用 ansible 实现,但是用户还是需要先装 ansible,装 ansible 有需要装 python 和一些依赖等,为了不让用户那么麻烦把 ansible 放到了容器里供用户使用。如果不想配置免密钥使用用户名密码时又需要 ssh-pass 等,总之不能让我满意,不是我想的极简。

所以我想就来一个二进制文件工具,没有任何依赖,文件分发与远程命令都通过调用 sdk 实现所以不依赖其它任何东西,总算让我这个有洁癖的人满意了。

为什么不用 keepalived haproxy

haproxy 用 static pod 跑没有太大问题还算好管理,keepalived 现在大部分开源 ansible 脚本都用 yum 或者 apt 等装,这样非常的不可控,有如下劣势:

  • 源不一致可能导致版本不一致,版本不一直连配置文件都不一样,我曾经检测脚本不生效一直找不到原因,后来才知道是版本原因
  • 系统原因安装不上,依赖库问题某些环境就直接装不上了
  • 看了网上很多安装脚本,很多检测脚本与权重调节方式都不对,直接去检测 haproxy 进程在不在,其实是应该去检测 apiserver 是不是 healthz 的,api 挂了即使 haproxy 在集群也会不正常了,就是伪高可用了。
  • 管理不方便,通过 prometheus 对集群进行监控,是能直接监控到 static pod 的但是用 systemd 跑又需要单独设置监控,且重启啥的还需要单独拉起。不如 kubelet 统一管理来的干净简洁。
  • 我们还出现过 keepalived 把 CPU 占满的情况。

所以为了解决这个问题,我把 keepalived 跑在了容器中 (社区提供的镜像基本是不可用的) 改造中间也是发生过很多问题,最终好在解决了。

总而言之,累觉不爱,所以在想能不能甩开 haproxy 和 keepalived 做出更简单更可靠的方案出来,还真找到了。。。

本地负载为什么不使用 envoy 或者 nginx

我们通过本地负载解决高可用问题

解释一下本地负载,就是在每个 node 节点上都启动一个负载均衡,上游就是三个 master,负载方式有很多 ipvs envoy nginx 等,我们最终使用内核 ipvs

如果使用 envoy 等需要在每个节点上都跑一个进程,消耗更多资源,这是我不希望的。ipvs 实际也多跑了一个进程 lvscare,但是 lvscare 只是负责管理 ipvs 规则,和 kube-proxy 类似,真正的流量还是从很稳定的内核走的,不需要再把包走到用户态中去处理。

实现上有个问题会让使用 envoy 等变得非常尴尬,就是 join 时如果负载均衡没有建立那是会卡住的,kubelet 就不会起,所以为此你需要先把 envory 起起来,意味着你又不能用 static pod 去管理它,同上面 keepalived 宿主机部署一样的问题,用 static pod 就会相互依赖,逻辑死锁,鸡说要先有蛋,蛋说要先有鸡,最后谁都没有。

使用 ipvs 就不一样,我可以在 join 之前先把 ipvs 规则建立好,再去 join 就可以 join 进去了,然后对规则进行守护即可。一旦 apiserver 不可访问了,会自动清理掉所有 node 上对应的 ipvs 规则,master 恢复正常时添加回来。

为什么要定制 kubeadm

首先是由于 kubeadm 把证书时间写死了,所以需要定制把它改成 99 年,虽然大部分人可以自己去签个新证书,但是我们还是不想再依赖个别的工具,就直接改源码了。

其次就是做本地负载时修改 kubeadm 代码是最方便的,因为在 join 时我们需要做两个事,第一 join 之前先创建好 ipvs 规则,第二创建 static pod,如果这块不去定制 kubeadm 就把报静态 pod 目录已存在的错误,忽略这个错误很不优雅。而且 kubeadm 中已经提供了一些很好用的 sdk 供我们去实现这个功能。

且这样做之后最核心的功能都集成到 kubeadm 中了,sealos 就单单变成分发和执行上层命令的轻量级工具了,增加节点时我们也就可以直接用 kubeadm 了

使用教程

安装依赖

  • 安装并启动 docker
  • 下载 kubernetes 离线安装包.
  • 下载最新版本 sealos.
  • 支持 kuberentes 1.14.0+
  • 务必同步服务器时间

安装教程

多 master HA:

sealos init --master 192.168.0.2 \
    --master 192.168.0.3 \
    --master 192.168.0.4 \
    --node 192.168.0.5 \
    --user root \
    --passwd your-server-password \
    --version v1.14.1 \
    --pkg-url /root/kube1.14.1.tar.gz     

或者单 master 多 node:

sealos init --master 192.168.0.2 \
    --node 192.168.0.5 \
    --user root \
    --passwd your-server-password \
    --version v1.14.1 \
    --pkg-url /root/kube1.14.1.tar.gz 

使用免密钥或者密钥对:

sealos init --master 172.16.198.83 \
    --node 172.16.198.84 \
    --pkg-url https://sealyun.oss-cn-beijing.aliyuncs.com/free/kube1.15.0.tar.gz \
    --pk /root/kubernetes.pem # this is your ssh private key file \
    --version v1.15.0
--master   master 服务器地址列表
--node     node 服务器地址列表
--user     服务器 ssh 用户名
--passwd   服务器 ssh 用户密码
--pkg-url  离线包位置,可以放在本地目录,也可以放在一个 http 服务器上,sealos 会 wget 到安装目标机
--version  kubernetes 版本
--pk       ssh 私钥地址,配置免密钥默认就是 /root/.ssh/id_rsa

Other flags:

 --kubeadm-config string   kubeadm-config.yaml kubeadm 配置文件,可自定义 kubeadm 配置文件
 --vip string              virtual ip (default "10.103.97.2") 本地负载时虚拟 ip,不推荐修改,集群外不可访问 

检查安装是否正常:

[root@iZj6cdqfqw4o4o9tc0q44rZ ~]# kubectl get node
NAME                      STATUS   ROLES    AGE     VERSION
izj6cdqfqw4o4o9tc0q44rz   Ready    master   2m25s   v1.14.1
izj6cdqfqw4o4o9tc0q44sz   Ready    master   119s    v1.14.1
izj6cdqfqw4o4o9tc0q44tz   Ready    master   63s     v1.14.1
izj6cdqfqw4o4o9tc0q44uz   Ready    <none>   38s     v1.14.1
[root@iZj6cdqfqw4o4o9tc0q44rZ ~]# kubectl get pod --all-namespaces
NAMESPACE     NAME                                              READY   STATUS    RESTARTS   AGE
kube-system   calico-kube-controllers-5cbcccc885-9n2p8          1/1     Running   0          3m1s
kube-system   calico-node-656zn                                 1/1     Running   0          93s
kube-system   calico-node-bv5hn                                 1/1     Running   0          2m54s
kube-system   calico-node-f2vmd                                 1/1     Running   0          3m1s
kube-system   calico-node-tbd5l                                 1/1     Running   0          118s
kube-system   coredns-fb8b8dccf-8bnkv                           1/1     Running   0          3m1s
kube-system   coredns-fb8b8dccf-spq7r                           1/1     Running   0          3m1s
kube-system   etcd-izj6cdqfqw4o4o9tc0q44rz                      1/1     Running   0          2m25s
kube-system   etcd-izj6cdqfqw4o4o9tc0q44sz                      1/1     Running   0          2m53s
kube-system   etcd-izj6cdqfqw4o4o9tc0q44tz                      1/1     Running   0          118s
kube-system   kube-apiserver-izj6cdqfqw4o4o9tc0q44rz            1/1     Running   0          2m15s
kube-system   kube-apiserver-izj6cdqfqw4o4o9tc0q44sz            1/1     Running   0          2m54s
kube-system   kube-apiserver-izj6cdqfqw4o4o9tc0q44tz            1/1     Running   1          47s
kube-system   kube-controller-manager-izj6cdqfqw4o4o9tc0q44rz   1/1     Running   1          2m43s
kube-system   kube-controller-manager-izj6cdqfqw4o4o9tc0q44sz   1/1     Running   0          2m54s
kube-system   kube-controller-manager-izj6cdqfqw4o4o9tc0q44tz   1/1     Running   0          63s
kube-system   kube-proxy-b9b9z                                  1/1     Running   0          2m54s
kube-system   kube-proxy-nf66n                                  1/1     Running   0          3m1s
kube-system   kube-proxy-q2bqp                                  1/1     Running   0          118s
kube-system   kube-proxy-s5g2k                                  1/1     Running   0          93s
kube-system   kube-scheduler-izj6cdqfqw4o4o9tc0q44rz            1/1     Running   1          2m43s
kube-system   kube-scheduler-izj6cdqfqw4o4o9tc0q44sz            1/1     Running   0          2m54s
kube-system   kube-scheduler-izj6cdqfqw4o4o9tc0q44tz            1/1     Running   0          61s
kube-system   kube-sealyun-lvscare-izj6cdqfqw4o4o9tc0q44uz      1/1     Running   0          86s

清理

sealos clean \
    --master 192.168.0.2 \
    --master 192.168.0.3 \
    --master 192.168.0.4 \
    --node 192.168.0.5 \
    --user root \
    --passwd your-server-password

增加节点

获取 join command, 在 master 上执行:

kubeadm token create --print-join-command

可以使用 super kubeadm, 但是 join 时需要增加一个 --master 参数:

cd kube/shell && init.sh
echo "10.103.97.2 apiserver.cluster.local" >> /etc/hosts   # using vip
kubeadm join 10.103.97.2:6443 --token 9vr73a.a8uxyaju799qwdjv \
    --master 10.103.97.100:6443 \
    --master 10.103.97.101:6443 \
    --master 10.103.97.102:6443 \
    --discovery-token-ca-cert-hash sha256:7c2e69131a36ae2a042a339b33381c6d0d43887e2de83720eff5359e26aec866

也可以用 sealos join 命令:

sealos join 
    --master 192.168.0.2 \
    --master 192.168.0.3 \
    --master 192.168.0.4 \
    --vip 10.103.97.2 \       
    --node 192.168.0.5 \            
    --user root \             
    --passwd your-server-password \
    --pkg-url /root/kube1.15.0.tar.gz 

使用自定义 kubeadm 配置文件

比如我们需要在证书里加入 sealyun.com:

先获取配置文件模板:

sealos config -t kubeadm >>  kubeadm-config.yaml.tmpl

修改 kubeadm-config.yaml.tmpl, 文件即可,编辑增加 sealyun.com, 注意其它部分不用动,sealos 会自动填充模板里面的内容:

apiVersion: kubeadm.k8s.io/v1beta1
kind: ClusterConfiguration
kubernetesVersion: {{.Version}}
controlPlaneEndpoint: "apiserver.cluster.local:6443"
networking:
  podSubnet: 100.64.0.0/10
apiServer:
        certSANs:
        - sealyun.com # this is what I added
        - 127.0.0.1
        - apiserver.cluster.local
        {{range .Masters -}}
        - {{.}}
        {{end -}}
        - {{.VIP}}
---
apiVersion: kubeproxy.config.k8s.io/v1alpha1
kind: KubeProxyConfiguration
mode: "ipvs"
ipvs:
        excludeCIDRs: 
        - "{{.VIP}}/32"

使用 –kubeadm-config 指定配置文件模板即可:

sealos init --kubeadm-config kubeadm-config.yaml.tmpl \
    --master 192.168.0.2 \
    --master 192.168.0.3 \
    --master 192.168.0.4 \
    --node 192.168.0.5 \
    --user root \
    --passwd your-server-password \
    --version v1.14.1 \
    --pkg-url /root/kube1.14.1.tar.gz 

版本升级

本教程以 1.14 版本升级到 1.15 为例,其它版本原理大差不差,懂了这个其它的参考官方教程即可

升级过程

  1. 升级 kubeadm, 所有节点导入镜像
  2. 升级控制节点
  3. 升级 master(控制节点) 上的 kubelet
  4. 升级其它 master(控制节点)
  5. 升级 node
  6. 验证集群状态

升级 kubeadm

把离线包拷贝到所有节点执行 cd kube/shell && sh init.sh
这里会把 kubeadm kubectl kubelet bin 文件都更新掉,而且会导入高版本镜像

升级控制节点

kubeadm upgrade plan
kubeadm upgrade apply v1.15.0

重启 kubelet:

systemctl restart kubelet

其实 kubelet 升级简单粗暴,我们只需要把新版本的 kubelet 拷贝到 /usr/bin 下面,重启 kubelet service 即可,如果程序正在使用不让覆盖那么就停一下 kubelet 再进行拷贝,kubelet bin 文件在 conf/bin 目录下

升级其它控制节点

kubeadm upgrade apply

升级 node

驱逐节点(要不要驱逐看情况, 喜欢粗暴的直接来也没啥)

kubectl drain $NODE --ignore-daemonsets

更新 kubelet 配置:

kubeadm upgrade node config --kubelet-version v1.15.0

然后升级 kubelet 一样是替换二进制再重启 kubelet service

systemctl restart kubelet

召回失去的爱情:

kubectl uncordon $NODE

验证

kubectl get nodes

如果版本信息对的话基本就 ok 了

kubeadm upgrade apply 干了啥

  1. 检查集群是否可升级
  2. 执行版本升级策略 哪些版本之间可以升级
  3. 确认镜像可在
  4. 执行控制组件升级,如果失败就回滚,其实就是 apiserver controller manager scheduler 等这些容器
  5. 执行 kube-dns 和 kube-proxy 的升级
  6. 创建新的证书文件, 备份老的如果其超过 180 天

源码编译

因为使用了 netlink 库,所以推荐在容器内进行编译

docker run --rm -v $GOPATH/src/github.com/fanux/sealos:/go/src/github.com/fanux/sealos -w /go/src/github.com/fanux/sealos -it golang:1.12.7  go build

如果使用 go mod 指定通过 vendor 编译:

go build -mod vendor

原理

执行流程

  • 通过 sftp 或者 wget 把离线安装包拷贝到目标机器上(masters 和 nodes)
  • 在 master0 上执行 kubeadm init
  • 在其它 master 上执行 kubeadm join 并设置控制面,这个过程会在其它 master 上起 etcd 并与 master0 的 etcd 组成集群,并启动控制组建(apiserver controller 等)
  • join node 节点,会在 node 上配置 ipvs 规则,配置 /etc/hosts 等

    有个细节是所有对 apiserver 进行访问都是通过域名,因为 master 上连接自己就行,node 需要通过虚拟 ip 链接多个 master,这个每个节点的 kubelet 与 kube-proxy 访问 apiserver 的地址是不一样的,而 kubeadm 又只能在配置文件中指定一个地址,所以使用一个域名但是每个节点解析不同。

使用域名的好处还有就是 IP 地址发生变化时仅需要修改解析即可。

本地内核负载

通过这样的方式实现每个 node 上通过本地内核负载均衡访问 masters:

  +----------+                       +---------------+  virturl server: 127.0.0.1:6443
  | mater0   |<----------------------| ipvs nodes    |    real servers:
  +----------+                      |+---------------+            10.103.97.200:6443
                                    |                             10.103.97.201:6443
  +----------+                      |                             10.103.97.202:6443
  | mater1   |<---------------------+
  +----------+                      |
                                    |
  +----------+                      |
  | mater2   |<---------------------+
  +----------+

在 node 上起了一个 lvscare 的 static pod 去守护这个 ipvs, 一旦 apiserver 不可访问了,会自动清理掉所有 node 上对应的 ipvs 规则,master 恢复正常时添加回来。

所以在你的 node 上加了三个东西,可以直观的看到:

cat /etc/kubernetes/manifests   # 这下面增加了 lvscare 的 static pod
ipvsadm -Ln                     # 可以看到创建的 ipvs 规则
cat /etc/hosts                  # 增加了虚拟 IP 的地址解析 

定制 kubeadm

对 kubeadm 改动非常少,主要是证书时间延长和 join 命令的扩展, 主要讲讲 join 命令的改造:

首先 join 命令增加 –master 参数用于指定 master 地址列表

flagSet.StringSliceVar(&locallb.LVScare.Masters, "master", []string{},
    "A list of ha masters, --master 192.168.0.2:6443  --master 192.168.0.2:6443  --master 192.168.0.2:6443",
)

这样就可以拿到 master 地址列表去做 ipvs 了

如果不是控制节点切不是单 master,那么就创建一条 ipvs 规则, 控制节点上不需要创建,连自己的 apiserver 即可:

if data.cfg.ControlPlane == nil {fmt.Println("This is not a control plan")
            if len(locallb.LVScare.Masters) != 0 {locallb.CreateLocalLB(args[0])
            }
        } 

然后再去创建 lvscare static pod 去守护 ipvs:

if len(locallb.LVScare.Masters) != 0 {locallb.LVScareStaticPodToDisk("/etc/kubernetes/manifests")
            }

所以哪怕你不使用 sealos,也可以直接用定制过的 kubeadm 去装集群,只是麻烦一些:

kubeadm 配置文件

apiVersion: kubeadm.k8s.io/v1beta1
kind: ClusterConfiguration
kubernetesVersion: v1.14.0
controlPlaneEndpoint: "apiserver.cluster.local:6443" # apiserver DNS name
apiServer:
        certSANs:
        - 127.0.0.1
        - apiserver.cluster.local
        - 172.20.241.205
        - 172.20.241.206
        - 172.20.241.207
        - 172.20.241.208
        - 10.103.97.1          # virturl ip
---
apiVersion: kubeproxy.config.k8s.io/v1alpha1
kind: KubeProxyConfiguration
mode: "ipvs"
ipvs:
        excludeCIDRs: 
        - "10.103.97.1/32" # 注意不加这个 kube-proxy 会清理你的规则 

master0 10.103.97.100 上

echo "10.103.97.100 apiserver.cluster.local" >> /etc/hosts # 解析的是 master0 的地址
kubeadm init --config=kubeadm-config.yaml --experimental-upload-certs  
mkdir ~/.kube && cp /etc/kubernetes/admin.conf ~/.kube/config
kubectl apply -f https://docs.projectcalico.org/v3.6/getting-started/kubernetes/installation/hosted/kubernetes-datastore/calico-networking/1.7/calico.yaml

master1 10.103.97.101 上

echo "10.103.97.100 apiserver.cluster.local" >> /etc/hosts #解析的是 master0 的地址, 为了能正常 join 进去
kubeadm join 10.103.97.100:6443 --token 9vr73a.a8uxyaju799qwdjv \
    --discovery-token-ca-cert-hash sha256:7c2e69131a36ae2a042a339b33381c6d0d43887e2de83720eff5359e26aec866 \
    --experimental-control-plane \
    --certificate-key f8902e114ef118304e561c3ecd4d0b543adc226b7a07f675f56564185ffe0c07 

sed "s/10.103.97.100/10.103.97.101/g" -i /etc/hosts  # 解析再换成自己的地址,否则就都依赖 master0 的伪高可用了 

master2 10.103.97.102 上,同 master1

echo "10.103.97.100 apiserver.cluster.local" >> /etc/hosts
kubeadm join 10.103.97.100:6443 --token 9vr73a.a8uxyaju799qwdjv \
    --discovery-token-ca-cert-hash sha256:7c2e69131a36ae2a042a339b33381c6d0d43887e2de83720eff5359e26aec866 \
    --experimental-control-plane \
    --certificate-key f8902e114ef118304e561c3ecd4d0b543adc226b7a07f675f56564185ffe0c07  

sed "s/10.103.97.100/10.103.97.101/g" -i /etc/hosts

nodes 上

join 时加上 –master 指定 master 地址列表

echo "10.103.97.1 apiserver.cluster.local" >> /etc/hosts   # 需要解析成虚拟 ip
kubeadm join 10.103.97.1:6443 --token 9vr73a.a8uxyaju799qwdjv \
    --master 10.103.97.100:6443 \
    --master 10.103.97.101:6443 \
    --master 10.103.97.102:6443 \
    --discovery-token-ca-cert-hash sha256:7c2e69131a36ae2a042a339b33381c6d0d43887e2de83720eff5359e26aec866

离线包结构分析

.
├── bin  # 指定版本的 bin 文件,只需要这三个,其它组件跑容器里
│   ├── kubeadm
│   ├── kubectl
│   └── kubelet
├── conf
│   ├── 10-kubeadm.conf  # 这个文件新版本没用到,我在 shell 里直接生成,这样可以检测 cgroup driver
│   ├── dashboard
│   │   ├── dashboard-admin.yaml
│   │   └── kubernetes-dashboard.yaml
│   ├── heapster
│   │   ├── grafana.yaml
│   │   ├── heapster.yaml
│   │   ├── influxdb.yaml
│   │   └── rbac
│   │       └── heapster-rbac.yaml
│   ├── kubeadm.yaml # kubeadm 的配置文件
│   ├── kubelet.service  # kubelet systemd 配置文件
│   ├── net
│   │   └── calico.yaml
│   └── promethus
├── images  # 所有镜像包
│   └── images.tar
└── shell
    ├── init.sh  # 初始化脚本
    └── master.sh # 运行 master 脚本 

init.sh 脚本中拷贝 bin 文件到 $PATH 下面,配置 systemd,关闭 swap 防火墙等,然后导入集群所需要的镜像。

master.sh 主要执行了 kubeadm init

conf 下面有有我需要的如 kubeadm 的配置文件,calico yaml 文件等等

sealos 会会调用二者。所以大部分兼容不同版本都可以微调脚本做到。

关注我们就是关注技术干货


kubernetes 一键 HA

正文完
 0