背景

腾讯云容器服务TKE从2016年提供服务至今,已服务成千上万企业构建其容器化平台, 一方面,腾讯云容器团队在提供容器服务时积攒并欠缺了一套万级K8s集群的etcd治理平台,用于撑持腾讯云容器产品稳固运行,该平台同时也撑持了腾讯外部业务如云监控,api网关,欢畅游戏等,另一方面,咱们积极参与etcd社区,将咱们大规模实际过程中遇到的问题和解决方案,反馈和奉献给社区,是社区2020年最沉闷的奉献团队之一。

容器团队在屡次客户访谈中理解到,很多客户不想本人运维etcd,冀望可能应用腾讯云容器服务外部etcd平台的能力和教训。 因而咱们推出了腾讯云原生etcd服务。

腾讯云原生etcd服务介绍

etcd是什么

etcd是一个分布式、高牢靠的键值存储,能够容忍集群中局部节点故障,只有有一半以上节点存活即可对外提供服务。次要用于元数据存储,服务发现,分布式选举等场景,如Kubernetes,CoreDNS等。基于etcd提供的Watch机制,能够很不便的实现公布订阅等性能。

为什么要推出etcd服务

容器团队在访问客户时理解到,很多客户因为对etcd理解水平不够,导致在理论应用和运维过程中呈现过很多问题。 例如有些客户应用了v3的api写数据却应用了v2的api进行数据备份,还有些客户因为集群复原时参数指定的有问题导致集群无奈失常重建,从而影响业务复原,更有甚者,因为主动压缩参数配置的有问题而频繁的应用defrag进行碎片整顿,还有很多业务因为应用姿态的问题导致etcd性能重大降落,频繁leader选举,间接造成业务不可用,数据失落等。

此外,用户自建etcd往往还须要本人再保护一套etcd监控告警零碎和备份复原机制,减少了运维累赘,自建etcd集群容易忽略监控和备份机制,往往出了问题之后才后知后觉。尽管目前业界曾经有了很多基于K8s的etcd治理计划,肯定水平上加重了运维累赘,如etcd-operator(目前已不再保护),基于helm部署的etcd等,但这些我的项目在可用性和易用性上并没有保障,出了问题之后往往更难复原。

腾讯云容器团队目前线上运维了上万套K8s集群,后端应用了上千套etcd集群作为撑持存储,在保障etcd稳固经营的过程中,咱们遇到过很多问题,也因而积攒了大量的实践经验,并孵化出了一套自动化etcd治理平台:蕴含欠缺的监控告警,备份复原和容灾机制,弱小的巡检能力可能帮忙咱们进行热点数据分析,混沌工程帮忙咱们被动发现一些暗藏的bug,可控的变更和降级机制可能让咱们针对问题版本进行疾速降级。

目前咱们曾经在腾讯外部为多个业务团队提供etcd服务,保障业务疾速上线和稳固经营。 为服务更多客户,咱们推出了云原生etcd产品服务,将咱们外部的能力提供进去,衷心冀望可能帮您解决etcd的运维累赘。

腾讯云原生etcd服务介绍

腾讯云容器团队提供的云原生etcd服务能够帮忙您:

  • 一键部署经腾讯外部大规模验证的高牢靠高性能etcd集群,反对跨可用区容灾能力、业余团队为您提供最优化的性能配置。
  • 集成云原生监控能力,提供欠缺的监控和告警机制
  • 提供etcd日常运维治理能力:

    • 备份复原:反对主动备份和手动备份、劫难状况能够抉择从备份复原集群
    • 配置升降、集群扩缩容:借助腾讯云上计算存储资源,您能够不便疾速调整etcd集群配置和节点个数
    • etcd版本升级:帮忙您疾速平安地跟进社区bugfix版本更新,版本上线前会通过外部大规模场景验证,防止因etcd本身bug造成隐患。
一键部署etcd集群

集成云原生监控

除原生指标外,集成云原生监控还同时反对扩大的巡检指标,如数据一致性巡检,集群衰弱探测,业务写QPS巡检等。

etcd集群治理

腾讯云原生etcd服务产品劣势

易用应用的托管部署

您能够在腾讯云容器服务控制台一键创立高牢靠,高性能etcd集群, 即可在几分钟内启动一个可投入生产的etcd集群。底层资源基于K8s部署,通过operator进行治理,反对将节点打散到不同的可用区,在3个可用区的状况下,单可用区挂掉不影响集群失常服务,节点挂掉之后能够疾速自愈,最大水平升高不可用工夫。数据长久化存储于腾讯云云硬盘,具备多正本的容灾能力。您不须要过多关注etcd的各项简单参数,咱们会依据您的集群配置,主动适配到适合的参数配置。

平安的数据拜访

反对开启https双向认证及鉴权,数据拜访更加平安。反对通过平安组来限度拜访起源。

欠缺的数据备份/复原

您能够在控制台创立集群时或集群创立实现后设置etcd的备份策略,反对定时的将数据备份到腾讯云对象存储COS服务,您也能够手动来触发备份。在集群数据异样须要回滚的状况下,能够通过COS备份来复原集群。

全面的监控告警

无缝对接腾讯云原生监控服务(托管prometheus服务),默认提供您须要关注的各项性能指标和可用性指标,您也能够自行聚合须要的监控指标和面板,帮忙您更好的监控etcd集群状态。

热点数据分析

除默认的监控能力外,咱们额定提供了热点数据分析和慢查问剖析能力,能够帮忙您更好的剖析异样申请起源,及时发现问题并进行优化。

欠缺的保障机制

云原生etcd服务的高可靠性让您能够释怀将数据放在云端,无需放心数据失落,也简化了传统运维工作中为保障数据高牢靠带来的额定工作量和额定的 IT 投入老本。

牢靠的版本验证和更新机制

版本上线前会通过欠缺的内部测试和大规模验证,通过混沌工程进行故障演练,保障版本的稳定性。

全流程的运维服务

您无需关怀云原生etcd服务的装置、部署、版本更新及故障解决,容器团队为您罢黜后顾之忧。

内测邀请

咱们诚挚邀请您参加腾讯云原生etcd服务的内测, 您能够通过以下链接提交内测申请:https://cloud.tencent.com/app...

附录:

《三年之久的 etcd3 数据不统一 bug 剖析》

《万级K8s集群背地etcd稳定性及性能优化实际》

【腾讯云原生】云说新品、云研新术、云游新活、云赏资讯,扫码关注同名公众号,及时获取更多干货!!