关于k8s:处理一次k8scalico无法分配podIP的心路历程

又一次偷偷化解了可能产生的重大事故。不想看过程的能够间接跳到开端看解决计划。

一个网络谬误

某天，上kplcloud构建一个测试利用，构建实现之后发现新pod始终启动失败，并且抛出了以下错误信息:

Failed create pod sandbox: rpc error: code = Unknown desc = NetworkPlugin cni failed to set up pod "xxxxxx-fc4cb949f-gpkm2_xxxxxxx" network: netplugin failed but error parsing its diagnostic message "": unexpected end of JSON input

会k8s的运维同学早已不在，忽然出问题了怎么办？

试着开始解决问题。

一、有没有可能是镜像拉取失败，开始找问题:

登录集群所有服务器查看空间是否占满（然而并没有占满）
查问集群所有服务器网络状况（也没有问题）
再启一个pod试试？（起不来）

这就难堪了......，有没有可能是calico的问题？

二、查看服务器报错信息

尝试以下命令看服务器的报错信息:

$ journalctl -exf

的确有一些错误信息:

这个谬误太宽泛了，持续尝试从其余中央找找问题。

此时曾经开始在思考如何跑路的问题了...

要不尝试从重启是否解决？

危险太大，不能冒险。尽管很多时候重启能解决大部分问题，但重启docker、k8s在这种状况下不是最佳抉择。

持续搜刮日志，猜想是无奈调配IP的问题，那指标转向calico

从calico-node下面找问题

查问ip池是否用完。

应用calicoamd命令查问calico是否失常失常运行

$ calicoctl get ippools -o wideCIDR            NAT    IPIP172.20.0.0/16   true   false$ calicoctl node status

仿佛是没啥问题。

开始场外求助......

无果

既然calico-node都运行失常，应该不会是calico-etcd的问题吧。

试试calico-etcd

本着有疑难就查证试试的态度，上面开始对calico-etcd进行一顿骚操作。

为了缩小代码量不便浏览，以下etcdctl所须要加的证书及endpoints，就不一一增加了，大家参考一下就好：

ETCDCTL_API=3 etcdctl --cacert=/etc/etcd/ssl/ca.pem \--cert=/etc/etcd/ssl/etcd.pem \ --key=/etc/etcd/ssl/etcd-key.pem \  --endpoints=http://10.xx.xx.1:2379,http://10.xx.xx.2:2379,http://10.xx.xx.3:2379

calico并没有问题，试试calico 所应用的 ETCD是否失常，进入calico-etcd集群：

$ ETCDCTL_API=3 etcdctl member listbde98346d77cfa1: name=node-1 peerURLs=http://10.xx.xx.1:2380 clientURLs=http://10.xx.xx.1:2379 isLeader=true299fcfbf514069ed: name=node-2 peerURLs=http://10.xx.xx.2:2380 clientURLs=http://10.xx.xx.2:2379 isLeader=false954e5cdb2d25c491: name=node-3 peerURLs=http://10.xx.xx.3:2380 clientURLs=http://10.xx.xx.3:2379 isLeader=false

仿佛集群也运行失常，get数据也失常。

所有看起来都感觉是如许的失常，仿佛没有什么故障。

算了，算了，还是先写会简历吧，换换脑子。

那尝试向ETCD写入一条数据试试？

$ ETCDCTL_API=3 etcdctl put /hello worldError:  etcdserver: mvcc: database space exceeded

报了一个错Error: etcdserver: mvcc: database space exceeded？？？

仿佛是找到起因了，既然定位到问题所在，那接下来就好办了。（不必跑路了(⁎⁍⁍⁎)）把简历先放一放。

感激平凡的google，我从etcd官网找到了一些线索及解决方案，前面我贴上官网介绍，先解决问题：

应用etcdctl endpoint status查问etcd各个节点的应用状态:

$ ETCDCTL_API=3 etcdctl endpoint statushttp://10.xx.xx.1:2379, 299fcfbf514069ed, 3.2.18, 2.1 GB, false, 7, 8701663http://10.xx.xx.2:2379, bde98346d77cfa1, 3.2.18, 2.1 GB, true, 7, 8701683http://10.xx.xx.3:2379, 954e5cdb2d25c491, 3.2.18, 2.1 GB, false, 7, 8701687

下面能够看到集群空间曾经应用了2.1GB了，这个值须要注意一下。

查问etcd是否有告警信息应用命令etcdctl alarm list:

$ ETCDCTL_API=3 etcdctl alarm listmemberID:2999344297460918765 alarm:NOSPACE

显示了一个alerm:NOSPACE，这个示意没空间了，那是没什么空间呢？磁盘还是内存？先查问一下。

仿佛磁盘、内存空间都足够的。从官网的信息理解到应该是etcd配额的问题，Etcd v3 的默认的 backend quota 2GB，也就是说etcd默认最大的配额是2GB，如果超过了则无奈再写入数据，要么把旧数据删除，要么把数据压缩了。

参考官网的解决方案

ETCD官网参考：https://etcd.io/docs/v3.2.17/op-guide/maintenance/

获取etcd的旧版本号

$ ETCDCTL_API=3 etcdctl endpoint status --write-out="json" | egrep -o '"revision":[0-9]*' | egrep -o '[0-9].*'539577153957715395771

压缩旧版本

$ ETCDCTL_API=3 etcdctl compact 5395771compacted revision 5395771

整顿碎片

$ ETCDCTL_API=3 etcdctl defragFinished defragmenting etcd member[http://10.xx.xx.1:2379]Finished defragmenting etcd member[http://10.xx.xx.2:2379]Finished defragmenting etcd member[http://10.xx.xx.3:2379]

敞开告警

$ ETCDCTL_API=3 etcdctl alarm disarmmemberID:2999344297460918765 alarm:NOSPACE$ ETCDCTL_API=3 etcdctl alarm list

测试数据是否可写入

$ ETCDCTL_API=3 etcdctl put /hello worldOK$ ETCDCTL_API=3 etcdctl get /helloOK

回到k8s这边，删除那个失败的pod，并查看是否可失常调配ip。

所有正确，完满。

为了防止后续再呈现相似问题，须要设置主动压缩，启动主动压缩性能须要在etcd启动参考上加上xxxxx=1

https://skyao.gitbooks.io/lea...

etcd 默认不会主动 compact，须要设置启动参数，或者通过命令进行compact，如果变更频繁倡议设置，否则会导致空间和内存的节约以及谬误。Etcd v3 的默认的 backend quota 2GB，如果不 compact，boltdb 文件大小超过这个限度后，就会报错：”Error: etcdserver: mvcc: database space exceeded”，导致数据无奈写入。

产生这么多垃圾数据的起因就是因为频繁的调度，咱们集群有大量CronJob在执行，并且执行的十分沉闷，每次产生新的Pod都会被调配到ip。有可能是因为pod工夫太短或没有及时登记而导致calico-etcd产生了大量垃圾数据。

尾巴

因calico-etcd集群的的应用配额满了，在创立pod时calico所调配的IP无奈写入到etcd里，从而导致pod创立失败也就无奈注册到CoreDNS了。

为了不采坑，监控是十分重要的，咱们有etcd集群的监控，却疏忽了etcd配额的监控，侥幸的是过后并没有利用重启动或降级，没有造成损失。

最初的倡议就是，没事下来点点，说不定会有您意想不到的惊喜(惊吓)。

作者：宜信技术学院王聪