共计 2438 个字符,预计需要花费 7 分钟才能阅读完成。
背景
腾讯云容器服务 TKE 从 2016 年提供服务至今,已服务成千上万企业构建其容器化平台,一方面,腾讯云容器团队在提供容器服务时积攒并欠缺了一套万级 K8s 集群的 etcd 治理平台,用于撑持腾讯云容器产品稳固运行,该平台同时也撑持了腾讯外部业务如云监控,api 网关,欢畅游戏等,另一方面,咱们积极参与 etcd 社区,将咱们大规模实际过程中遇到的问题和解决方案,反馈和奉献给社区,是社区 2020 年最沉闷的奉献团队之一。
容器团队在屡次客户访谈中理解到,很多客户不想本人运维 etcd,冀望可能应用腾讯云容器服务外部 etcd 平台的能力和教训。因而咱们推出了腾讯云原生 etcd 服务。
腾讯云原生 etcd 服务介绍
etcd 是什么
etcd 是一个分布式、高牢靠的键值存储,能够容忍集群中局部节点故障,只有有一半以上节点存活即可对外提供服务。次要用于元数据存储,服务发现,分布式选举等场景,如 Kubernetes,CoreDNS 等。基于 etcd 提供的 Watch 机制,能够很不便的实现公布订阅等性能。
为什么要推出 etcd 服务
容器团队在访问客户时理解到,很多客户因为对 etcd 理解水平不够,导致在理论应用和运维过程中呈现过很多问题。例如有些客户应用了 v3 的 api 写数据却应用了 v2 的 api 进行数据备份,还有些客户因为集群复原时参数指定的有问题导致集群无奈失常重建,从而影响业务复原,更有甚者,因为主动压缩参数配置的有问题而频繁的应用 defrag 进行碎片整顿,还有很多业务因为应用姿态的问题导致 etcd 性能重大降落,频繁 leader 选举,间接造成业务不可用,数据失落等。
此外,用户自建 etcd 往往还须要本人再保护一套 etcd 监控告警零碎和备份复原机制,减少了运维累赘,自建 etcd 集群容易忽略监控和备份机制,往往出了问题之后才后知后觉。尽管目前业界曾经有了很多基于 K8s 的 etcd 治理计划,肯定水平上加重了运维累赘,如 etcd-operator(目前已不再保护),基于 helm 部署的 etcd 等,但这些我的项目在可用性和易用性上并没有保障,出了问题之后往往更难复原。
腾讯云容器团队目前线上运维了上万套 K8s 集群,后端应用了上千套 etcd 集群作为撑持存储,在保障 etcd 稳固经营的过程中,咱们遇到过很多问题,也因而积攒了大量的实践经验,并孵化出了一套自动化 etcd 治理平台:蕴含欠缺的监控告警,备份复原和容灾机制,弱小的巡检能力可能帮忙咱们进行热点数据分析,混沌工程帮忙咱们被动发现一些暗藏的 bug,可控的变更和降级机制可能让咱们针对问题版本进行疾速降级。
目前咱们曾经在腾讯外部为多个业务团队提供 etcd 服务,保障业务疾速上线和稳固经营。为服务更多客户,咱们推出了云原生 etcd 产品服务,将咱们外部的能力提供进去,衷心冀望可能帮您解决 etcd 的运维累赘。
腾讯云原生 etcd 服务介绍
腾讯云容器团队提供的云原生 etcd 服务能够帮忙您:
- 一键部署经腾讯外部大规模验证的高牢靠高性能 etcd 集群,反对跨可用区容灾能力、业余团队为您提供最优化的性能配置。
- 集成云原生监控能力,提供欠缺的监控和告警机制
提供 etcd 日常运维治理能力:
- 备份复原:反对主动备份和手动备份、劫难状况能够抉择从备份复原集群
- 配置升降、集群扩缩容:借助腾讯云上计算存储资源,您能够不便疾速调整 etcd 集群配置和节点个数
- etcd 版本升级:帮忙您疾速平安地跟进社区 bugfix 版本更新,版本上线前会通过外部大规模场景验证,防止因 etcd 本身 bug 造成隐患。
一键部署 etcd 集群
集成云原生监控
除原生指标外,集成云原生监控还同时反对扩大的巡检指标,如数据一致性巡检,集群衰弱探测,业务写 QPS 巡检等。
etcd 集群治理
腾讯云原生 etcd 服务产品劣势
易用应用的托管部署
您能够在腾讯云容器服务控制台一键创立高牢靠,高性能 etcd 集群,即可在几分钟内启动一个可投入生产的 etcd 集群。底层资源基于 K8s 部署,通过 operator 进行治理,反对将节点打散到不同的可用区,在 3 个可用区的状况下,单可用区挂掉不影响集群失常服务,节点挂掉之后能够疾速自愈,最大水平升高不可用工夫。数据长久化存储于腾讯云云硬盘,具备多正本的容灾能力。您不须要过多关注 etcd 的各项简单参数,咱们会依据您的集群配置,主动适配到适合的参数配置。
平安的数据拜访
反对开启 https 双向认证及鉴权,数据拜访更加平安。反对通过平安组来限度拜访起源。
欠缺的数据备份 / 复原
您能够在控制台创立集群时或集群创立实现后设置 etcd 的备份策略,反对定时的将数据备份到腾讯云对象存储 COS 服务,您也能够手动来触发备份。在集群数据异样须要回滚的状况下,能够通过 COS 备份来复原集群。
全面的监控告警
无缝对接腾讯云原生监控服务(托管 prometheus 服务),默认提供您须要关注的各项性能指标和可用性指标,您也能够自行聚合须要的监控指标和面板,帮忙您更好的监控 etcd 集群状态。
热点数据分析
除默认的监控能力外,咱们额定提供了热点数据分析和慢查问剖析能力,能够帮忙您更好的剖析异样申请起源,及时发现问题并进行优化。
欠缺的保障机制
云原生 etcd 服务的高可靠性让您能够释怀将数据放在云端,无需放心数据失落,也简化了传统运维工作中为保障数据高牢靠带来的额定工作量和额定的 IT 投入老本。
牢靠的版本验证和更新机制
版本上线前会通过欠缺的内部测试和大规模验证,通过混沌工程进行故障演练,保障版本的稳定性。
全流程的运维服务
您无需关怀云原生 etcd 服务的装置、部署、版本更新及故障解决,容器团队为您罢黜后顾之忧。
内测邀请
咱们诚挚邀请您参加腾讯云原生 etcd 服务的内测,您能够通过以下链接提交内测申请:https://cloud.tencent.com/app…
附录:
《三年之久的 etcd3 数据不统一 bug 剖析》
《万级 K8s 集群背地 etcd 稳定性及性能优化实际》
【腾讯云原生】云说新品、云研新术、云游新活、云赏资讯,扫码关注同名公众号,及时获取更多干货!!