关于阿里云:深度吐槽阿里云ack服务

61次阅读

共计 2307 个字符,预计需要花费 6 分钟才能阅读完成。

背景:

算是一个腾讯云深度用户,用了 78 年左右,因为业务需要,往年五月份开始逐渐在阿里云跑了一些服务。不吹不黑。发自内心的吐槽一下阿里云的 ack 服务。其余服务没有多大发言权。都差不多。然而作为一个算是比拟晚期的 kubernetes 用户有必要吐槽一下阿里云的 ack 服务,没有方法。圈子外面没有阿里云容器组的人,像是腾讯云的 tke 的服务有问题能够间接找到相干人员反映,提交一下集体意见了。

深度吐槽阿里云 ack 服务

1. 从创立集群开始吧

1. 对于虚构交换机

对于这个抉择虚构交换机我就很不能了解,比方我当初有四个交换机,ok,我抉择了三个,是不是我另外一个交换机的服务器就不能退出集群?前提是我抉择了专用网络了,实践上我的专用网络内任何一台服务器是不是都能够退出集群?为什么要给我加一个这个的限度呢?不晓得我的了解有没有问题,也欢送各位阿里云的大佬斧正!

2. 对于容器的网络

这个中央更是恶心 …. 默认的 pod 的 cidr 172 网段的,service cidr192.168.0.0/16 段的?这只是我的截图阿,反正就是 两个网络的段不会是一个大的网段默认的 ……

pod 网络 service 网络默认会是两个不一样的私网 …. 可是我有点强迫症 …. 我想 pod service cidr 在一个网络内可不可以?请看一下腾讯的我只设置了容器网络 172.1716.0/20, 而后我的容器 pod 网络主动设置为了 172.17.16.0/20,service cidr 设置为了 172.17.28.0/22:

这样他不香吗?要害是这样,我前面如果多 vpc,多地区集群作互联是不是会不便一些?

可能手动的能够设置。然而用户疏导这方面设置为两个不同的私网是很恶心的,请考虑一下多集群互联,和网络资源的布局!
这只是集群创立过程中体验的不爽的 …

2. 当集群创立实现之后:

1. 资源的扩容增加服务器到集群

这个问题我提交过工单,工单可见服务编号 000D0585GS。过程是这样的。我要增加一台已有的服务器退出集群,而后居然加不进去,查了一圈问题,客服通知我,要先把这台服务器退出到 ack 节点的平安祖我能力操作 ….what 这是什么鬼操作?我增加机器进入集群,平安祖不应该默认增加吗?还须要我手动先将机器退出平安祖我能力增加机器进入集群?这是什么神仙操作?很让我费解。工单中提交了集体意见心愿能更改这个流程,不晓得后续是否有什么批改

2. 诡异的 alb

事件是这样的:我应该三四月份创立的 ack 集群,而后过后看网络路由有 ALB ingress,咱没有用过阿 … 体验一下吧!后果就是我没有创立胜利 …… 有点难过,作为一个用了 kubernetes5- 6 年的用户我居然没有搞胜利,好吧一气之下删除了,换成了 traefik 作代理。诡异的期间 14 天后的一个夜晚产生了 ….. 主动创立了 ALB 服务。齐全懵了 …… 我不是删除了吗?为什么是 14 天的周期主动创立了?

我关怀的是删除了服务,为什么没有删除洁净?为什么 14 天后服务主动创立了?这都是什么神仙操作?

3. 日志服务对于 Job 日志的采集

谁家还没有几个 job 服务呢对吧?而后接入了阿里云的日志采集服务。恩要害是日志齐全没有采集到阿 …. 怎么会事件?问 了一下我的 job 退出太快了 ….

要害是 job 就算退出了也是 complete 状态吧?默认的能够看到最新的三个工作的日志吧?起码 kubectl logs -f?采集不到 …. 好吧,批改代码打完了日志期待 30 秒再推出 … 这也太恶心了 …… 我起码 filebeat 啥的采集也能采集到吧?怎么就不能呢?能不能别让我批改阿 ……

4. 可恶的报警 …….

先吐槽一下这个报警模板,大家的审美观看一下可还悦目?

第一眼 ack 好的我默认关上 ACK

TMD 报警模板外面的实例名称能不能给 ack 集群中节点名称统一我那里下手阿?哦对有公网 IP 我凑,这 ack 控制台显示公网 Ip 吗?点开详情 ip 这里能力发现是这一台

这里我心愿报警模板实例能与 ACK 节点名称规范化一下。ack 控制台节点相干信息显示也可能更欠缺一下。
而后接着吐槽,报警这里 fs.inode.utilization_device 设置的阈值是 85% 没有问题,看一下 kubelet 的垃圾回收:–eviction-hard=imagefs.available<15%,memory.available<300Mi,nodefs.available<10%,nodefs.inodesFree<5%
这是默认的吧压根就没有批改吧?那这个报警与垃圾回收有什么用呢?我就想晓得?

好吧我本人去批改 kubelet 配置文件行不行?
eviction-hard=imagefs.available<15%,memory.available<300Mi,nodefs.available<20%,nodefs.inodesFree<15%
找了一圈我居然无奈确定改批改哪个文件

我这里批改能够吗?

重启服务后

ps -ef|grep kubelet

还是这样 我怂了,惹不起!

我改一下报警行了不?,惹不起我躲了!

看一下失常 kubeadm 集群的配置:

我批改了一下 kubeadm-flags.env 好歹是失效的阿?对不

惹不起我躲了 …. 先批改监控报警策略了!而且从根本上来说,托管的服务。这些货色应该是优化好的尽量去缩小用户的操作不是吗? 你的 报警跟垃圾回收策略都不统一,搞毛线呢?问题是我集体批改参数他也不失效阿 ….. 这让我怎么玩?毫无舒适感,不想动了!
心愿阿里云 ack 的小伙伴能看到我的吐槽,没有方法阿吐槽无门阿 …. 太居高临下了 ….. 心愿能听一下用户的心声!

正文完
 0