共计 1808 个字符,预计需要花费 5 分钟才能阅读完成。
对于咱们
更多对于云原生的案例和常识,可关注同名【腾讯云原生】公众号~
福利:
①公众号后盾回复【手册】,可取得《腾讯云原生路线图手册》&《腾讯云原生最佳实际》~
②公众号后盾回复【系列】,可取得《15 个系列 100+ 篇超实用云原生原创干货合集》,蕴含 Kubernetes 降本增效、K8s 性能优化实际、最佳实际等系列。
③公众号后盾回复【白皮书】,可取得《腾讯云容器平安白皮书》&《降本之源 - 云原生老本治理白皮书 v1.0》
④公众号后盾回复【光速入门】,可取得腾讯云专家 5 万字精髓教程,光速入门 Prometheus 和 Grafana。
作者
吕朋钊,腾讯业务运维高级工程师,曾负责 QQ 相册、小世界业务的存储接入层运维,现负责 AI 业务的运维。
背景
QQ 相册是 QQ 产品中为用户提供图片存储,分享等性能的成熟产品,自上线以来,始终为用户提供稳固疾速的图片上传和下载服务。作为社交业务组内第一个上 TKE 的平台,相册在过来一年多工夫里总结出了一套适宜本身的 TKE 上云实际计划。
服务场景
自相册全面革新上云之后,新的架构如下:
问题
随着相册各模块已根本实现容器化,也暴露出了不少应用上的问题。
资源利用率晋升与 CICD 优化
1. 资源利用率晋升
复用集群、独立集群迁徙到共享集群
复用集群因为是应用老旧机器搭建的 K8s 集群,在应用上会有比拟多的损耗,而且常常会有资源抢占重大的状况。而独立集群因为母机规格不够高,会造成肯定水平的资源节约。基于这两点,把复用集群和独立集群的零碎迁徙到复用集群是较好的抉择。会发现,迁徙后的资源利用率和错误码次数都失去了显著的改善。
同时应用 HPA 弹性扩缩容,依据 CPU 利用率,让资源在业务低峰期失去开释,高峰期主动扩容,能够更好地节约老本。
2. 部署策略优化
因为以后基于一个可用区的命名空间建设一个 workload 的计划没有思考到单可用区的容灾,所以咱们在一个集群的多个可用区都建设了 workload,同时在其余地区也建设了容灾的 workload,当有机房或者地区级别的故障产生时,能够主动切换到其余机房或者地区。
3. 七彩石配置
每个利用都应用七彩石作为配置管理,在 TKE 场景中,配置变更会更改 workload yaml 中的 annotations 字段,而 downward api 会把 annotations 的值作为 volumn 注入到容器的七彩石目录,智研之后还会调用容器外部的 configuration-reload.sh 从而实现配置变更。此过程因为只波及批改 annotations,并不会令 pod 和容器重建,一个 pod 的整个配置变更过程只须要几秒。
4. ClickHouse 日志查问
随着相册业务日志量的减少,日志存储老本也在升高,因而咱们把日志迁徙到了 ClickHouse。在可承受的影响范畴内,ClickHouse 所需资源只须要 ES 的 30%-50%。
5. Tget 拨测
业务监控方面联合 Tget 拨测,对 oc 域名和源站域名都做了拨测告警,进步针对 vip 被封禁或者网络导致问题的响应速度。
6. 智研一站式接入
相册正在接入智研一站式开发,应用智研提供的从需要 - 开发 - 测试 - 公布上线 - 线上经营的研发全生命周期治理服务,让相册 CICD 能够更好地提高效率。
经营开发能力
1. 告警剖析手机端自助剔除
联合智研的告警剖析回调接口,能够手动在企业微信界面上剔除某台机器在北极星的绑定。
2. 品质分剖析
针对平时监控不到的新错误码引起的异样失败率升高,品质分剖析工具能够让运维人员疾速晓得以后是由哪个错误码引起的品质升高。
云原生成熟度提分
1. 业务稳固是第一位
在云原生提分实际过程中,发现很多模块的瓶颈并不是 CPU,而是流量或者内存,然而目前云原生的计算形式只计算 CPU,所以制订 HPA 扩缩容策略时须要综合各维度去思考。
2. 升高 request 值
对于某些流量型的模块如 http、preupload 和 prxoy,能够把 workoad 的 request 的值适当升高,这样能够让 CPU 利用率的晋升有空谷传声的成果,须要联合压力测试来确认 request 升高后 CPU 不会成为瓶颈。
小结
随着相册的 TKE 业务从其余平台转到共享集群,联合部署优化策略和经营开发能力,总结如下:
- 云原生成熟度有了显著的晋升。
- 相册平台累计应用 TKE 规模达 5 万 + 核。
3. 买通智研 CICD 流程,显著晋升日常开发和运维效率。
【腾讯云原生】云说新品、云研新术、云游新活、云赏资讯,扫码关注同名公众号,及时获取更多干货!!