关于sql:TDSQL多集群下的自动化和交付

221次阅读

共计 2285 个字符,预计需要花费 6 分钟才能阅读完成。

“两地三核心”部署体系

“两地三核心”架构顾名思义: 在一个城市有 A、B 两个机房,另一个城市有 C 机房,在第一个城市中 TDSQL 数据库实例采纳同 IDC 异步、跨 IDC 强同步的形式,咱们须要在第一个城市将四个数据节点部署在二个机房,其中主节点和一个备节点在一个机房,另外两个备节点在另一个机房。并且在第一个城市和第二个城市的数据库实例间,采纳的是异步复制,保障金融城市级高可用容灾。

“两地四核心”部署体系

“两地四核心”的架构,是一个自动化切换的强同步架构,对任何数据中心及故障都能 30 秒内切换,并且数据零失落,性能也稳固牢靠,对业务和用户来说是实现更高的可用性和更低的老本。

TDSQL 品质保障服务:

全生产流程自动化巡检

最初,最重要的是咱们如何保障 TDSQL 的交付品质服务的品质。

TDSQL 的交付品质通过一个自动化巡检的计划保障。TDSQL 自动化巡检计划通过三个维度保障交付品质:

监控指标剖析

第一个维度基于 TDSQL 现有的监控核心进行相干指标性的剖析,包含以后时刻的指标剖析和历史时刻的指标剖析。 当咱们要在验证一个集群是否有问题的时候,往往除了要剖析此时此刻的集群是否存在异样和告警、是否存在资源负载过重等状况,还须要剖析历史性的问题,比如说在历史过来七天中各个指标的曲线如何。为什么要剖析过来历史七天的指标曲线?举个简略的场景案例,例如一个场景在每天下午三点到五点是业务高峰期,在业务高峰期期间可能有很多业务的慢查问,甚至有一些慢查问带来的性能的问题。零碎如何监控在历史某个时刻呈现的问题?那么咱们发动自动化巡检计划的时候,比方是上午 8 点钟,适逢业务低峰期,此时是发现不了问题的,所以咱们须要对历史指标进行剖析。

计划中具体分析的指标包含检测前台连通性、实例的复制形式、主备切换形式等。 监控次要分为两个方面:第一是监控指标的采集、上报、收集,这是监控核心负责。第二是对监控数据进行剖析,并对认为异样的剖析进行告警。剖析和告警过程中会遵循肯定的策略——怎么的监控数据才是异样、有必要告警的?以后 TDSQL 保护了一套告警模板,也给客户提供了可配置的、定制化的选项,客户能够依据本人的理论状况进行告警策略的批改;同时提供基于实践经验积攒的告警策略比照,以防用户做出不合理的批改,裸露告警策略的潜在危险。

在这个维度,TDSQL 多源同步等模块能够对数据同步状况进行监控,他们以后同步的稳定性、同步的性能如何,等其余就是各个模块的告警的监控指标。

集群环境扫描

第二个维度是对第一个维度的补充。 第二个维度的剖析是机器级的,不是通过采集的监控数据,是间接拜访服务器后盾,对机器级的 IO、CPU、内存、磁盘、稳定性等进行检测。

除了机器级和过程级,咱们还会进行实例级的定制化扫描,这个体现在实例体检模块——实例的体检就是 TDSQL 智能诊断剖析平台“扁鹊”的接口,能够为实例提供从经营、开发、性能等各个指标的系统性剖析。

集群级层面,咱们会关注这个集群各个机器之间是否是同步、实例下元数据集群是否是有备份、备份是否是失常等。

自动化演练

在咱们以各个维度去扫描以后集群没有问题的状况下,TDSQL 还会从后果登程,对整个集群做一次 P0 级别的自动化演练,演练的场景就是咱们失常经营和治理的场景,包含购买实例、创立用户、用户受权、创立库表,在这个库表上做一些表构造的变更、程度扩容、垂直的扩容、多重备机、慢查问入库、备份和回档等。最初零碎会对购买的实例进行删除,实现对 P0 级别的场景进行闭环的自动化演练。

总结来说,TDSQL 自动化巡检计划从指标级,到整个集群环境进行扫描,以及通过自动化演练这三个维度确保整个交付的集群平安、稳固、牢靠、高可用。

除了技术上的保障计划,TDSQL 同时积淀了大量产品化工作,帮忙用户疾速、不便地应用分布式数据库。

咱们也会对客户信息进行定期维护,首先对客户定期发动集群的巡检,通过这个巡检能够保障客户以后以及历史一段时间内环境是没有问题的。巡检次要进行功能性和容灾性的演练,通过主动的定期巡检,管理系统如果扫描到有倡议客户要降级的版本,则会主动推送到客户代表,由客户代表推动客户降级。

最初,在客户日常经营、日常变更中,可能经营面临的大部分问题是怎么扩容、降级、解决告警?TDSQL 对各个节点的扩容提供了自动化的扩容计划,能够一键扩容。同样降级也是提供了前台化一键操作的性能,既能够进行点对点降级,也能够进行整个集群的批量降级。TDSQL 的高可用性一方面在于本身的弹性架构和容灾能力,以及数据强一致性。

可用性方面 TDSQL 提供了自动化告警解决计划,可实现自动化告警剖析,并对局部告警主动解决,缩小现网经营的工作量。

以上咱们以交付为外围介绍了 TDSQL 在历史过程中遇到的几个交付上的挑战,和针对这些交付挑战,咱们提出的自动化交付计划,以及最初对整个 TDSQL 标准化交付的品质和客户服务提供了一系列机制和能力方面的晋升。

以上是明天的分享,谢谢大家!

PartⅣ Q&A

Q:TDSQL 反对数据库离线备份吗?

A:TDSQL 反对多种备份形式,能够基于物理式的备份,也能够基于逻辑备份。整个备份过程在备机上进行,不会影响失常的业务拜访,也不会对业务拜访的性能带来影响。

Q:TDSQL 的告警信息如何接入短信、语音、邮件告警平台?

A:TDSQL 的告警接入比拟灵便,首先 TDSQL 的告警信息是文本的模式,能够发送到任何平台,以后客户曾经适配过的告警接入形式有很多,比如说客户有 HTTP 接口的告警平台,也有一些其余接口的。依据客户想要的接口,TDSQL 能够对应地发一个包,蕴含了告警信息,发到你的告警接管平台就能够了。

正文完
 0