关于数据库:如何保障系统稳定性并实现绿色减排蚂蚁集团有这些关键技术

2次阅读

共计 4060 个字符,预计需要花费 11 分钟才能阅读完成。

4 月 27 日,首届“寰球信息系统稳定性峰会”在北京召开。会上,中国信息通信研究院(以下简称“中国信通院”)颁布了首批信息系统稳定性保障能力评估后果、分布式系统稳定性实验室成员单位、信息系统安稳运行优良案例。蚂蚁团体入选为实验室成员单位,其领取平台凭借在零碎稳固和平安等方面的技术与实际,取得“零碎安稳运行优良案例”颁证。

作为实验室成员单位,蚂蚁团体积极参与编写了零碎稳定性相干的规范及钻研报告,此次峰会上,蚂蚁团体数字科技事业群技术副总经理石世群也做了《支付宝零碎双十一稳定性保障教训分享》的主题演讲,分享蚂蚁团体金融级分布式架构 SOFAStack 在零碎稳定性保障畛域的摸索和实践经验。

以下为演讲整顿全文:

大家好,我是蚂蚁团体数字科技的石世群。明天我将在线介绍支付宝双 11 稳定性保障的相干内容。

零碎的稳定性保障,是一个简单的系统工程。从 2004 年到 2021 年,支付宝经验了一系列的技术架构降级和迭代,从单元化架构走向弹性上云,进而演变到云原生、绿色计算,这个过程既要思考容量稳定性,也要思考老本和效率。

咱们做了简略的总结,大略经验三个阶段:

第一阶段,次要解决容量的问题。通过 LDC、弹性能力和 OceanBase,解决了容量实践上有限伸缩的能力。同时,通过全链路压测技术很好的对全链路容量进行验证;
第二阶段,当领取的容量能力达标后,进一步思考的就是如何通过技术创新去晋升整体架构的稳固和效率。典型的场景有 2 个,一个是云原生,云原生架构的核心理念是将基础设施和业务进行剥离,从而开释基础设施的红利,大幅晋升翻新速度和效率,比拟典型的案例就是 ServiceMesh 在蚂蚁的落地。另一个就是咱们对于智能监控运维体系,通过数据智能的形式,晋升零碎应急响应复原的反应速度。
第三阶段,绿色减排。间断几年,咱们在放弃峰值稳步增长的状况下,提出了大促 0 老本新增。2021 年双 11,咱们的次要方向就聚焦在绿色减排上,通过离在线混部、分时调度、智能 AI 容量等翻新技术,实现节约 64 万度电和 394 吨碳减排。

接下来,我给大家介绍一下支付宝双 11 大促的关键技术。

单元化部署

异地多活逻辑单元架构,蚂蚁外部也叫 LDC,全称是 Logical Data Center(逻辑数据中心),是对 IDC(Internet Data Center,互联网数据中心)的一种逻辑划分,也是支付宝零碎实际“单元化部署”所采纳的计划。

保障信息系统的稳定性,外围要解决两方面问题:

第一个,单点瓶颈。任何一个互联网零碎倒退到肯定规模时,都会不可避免地涉及到单点瓶颈。从单服务器、单利用,到单数据库、单机房,进而到多机房部署、多地部署(异地多活),这个过程就是在一直冲破单点瓶颈;

第二个,保障异地容灾能力,这样能力满足金融级稳定性要求。

多地多机房部署,是互联网零碎倒退的必然方向,这外面要解决很多关键问题,包含流量调配、数据拆分、延时等,当然这些问题都能够通过技术和计划来解决,而承载这些计划的是一个部署架构。只管可采纳的部署计划不止一个,但无论是纯理论钻研,还是一些后行零碎的架构实际,都把“单元化部署”列为最佳计划。

所谓单元,是指一个能实现所有业务操作的自蕴含汇合,在这个汇合中蕴含了所有业务所需的所有服务,以及调配给这个单元的数据。一个单元,是一个五脏俱全的放大版整站,它是全能的,因为部署了所有利用;但它不是全量的,因为只能操作一部分数据。

支付宝外部通过将单元分成 RZone、GZone、CZone 三类,来解决流量调配、数据拆分、延时的问题:

  • RZone(Region Zone):最合乎实践上单元定义的 zone,每个 RZone 都是自蕴含的,领有本人的数据,能实现所有业务。
  • GZone(Global Zone):全局单元,部署了不可拆分的数据和服务,这些数据或服务可能会被 RZone 依赖。GZone 在全局只有一组,数据仅有一份。
  • CZone(City Zone):以城市为单位部署的单元,同样部署了不可拆分的数据和服务,也会被 RZone 依赖。但跟 GZone 不同的是,CZone 中的数据或服务会被 RZone 频繁拜访,每一笔业务至多会拜访一次;而 GZone 被 RZone 拜访的频率则低的多。CZone 是为了解决异地提早问题而特地设计的。

基于 LDC 架构,支付宝实现了真正的异地多活架构,实现了金融级 99.99% 可用性,以及实践上的无线容量能力,顺利撑持了大促数十万级的能力,同时也为后续的弹性架构奠定了很好的根底。

弹性架构

方才咱们讲到了 LDC 逻辑单元架构,它是实践上具备了有限容量的可能性,然而事实往往是不太可行的,有以下两个方面的起因:

一方面,公司外部本人掌控的资源是无限的,随着领取笔数的快速增长,自持的资源会遇到瓶颈;另一方面,双 11 大促毕竟是多数时候,如果长时间领有这么多资源,对于老本来讲也是不经济的,这并没有充沛开释云计算的红利。

蚂蚁支付宝在 LDC 架构的根底上,进一步降级了弹性架构,实现了依照业务粒度的弹性能力,把一部分单元转变成弹性单元,在高峰期时弹到云下来,从而实现疾速扩容能力。当大促完结时,再把这些单元弹回到日常机房,这样就能够保障资源的更无效利用。所有的弹性逻辑都是在基础设施层面全副做了封装,对业务实现了无感的弹性。咱们在 2016 年双 11 大促,无效撑持了每秒十几万级领取峰值,跟本人持有资源的模式相比,老本实现大幅度降低 50% 以上。

服务网格

接下来看服务网格 ServiceMesh,这也是十分要害的一个技术。

为什么须要 ServiceMesh?还得从微服务讲起。微服务存在的问题,很多跟服务治理相干,包含组件之间相互依赖、服务管控难、平台运管等问题,咱们通过轻量级网络代理,负责微服务间的通信等工作,以 sidecar 模式部署在容器的独立过程中,并通过一系列的基础设施和业务解耦,高效实现了基础设施的降级。在大促期间,基础设施的迭代提效 10 倍以上。

其次,通过 ServiceMesh 能够实现灵便流量管制,所有的限流、熔断由 ServiceMesh 接管,不须要业务革新,节约了大量的预案研发老本和 SDK 的接入老本。目前 ServiceMesh 曾经笼罩了支付宝 100% 外围领取链路,具备百万级别的容器规模,峰值千万 QPS。

线上全链路压测技术的演进

压测是极其重要的容量验证伎俩,咱们方才讲到的所有办法,都是一直在晋升容量扩大的能力。然而也十分须要一个十分好的伎俩去验证容量是否合乎预期,线上的全链路压测技术就变得十分要害。

传统的压测技术有很多问题,次要体现在传统的部分单链路压测不残缺,它是以单业务压测为主,数据库层面不好压测,网络层面也不好压,无奈无效模仿实在业务的状况。此外,传统线下压测、仿真压测、线上单机引流压测的准确度不高,也没有精确评估资源状况。

对于整个线上全链路压测来说,咱们次要有以下几个要点:

  • 外围链路剖析,建设用户端到端的行为模型。通过大数据技术,基于大促的用户行为和后端链路,构建端到端的流量模型,用来验证全链路压测的充沛度
  • 压测环境复用生产。通过数据拜访代理,把压测数据导到链路下来,不影响失常业务数据,后果是很牢靠的。
  • 压测性能剖析诊断。压测过程中,如果遇到问题,能够疾速定位问题,并诊断给出优化倡议。典型的包含网络诊断(网络品质、带宽)、利用诊断(内存、CPU 热点、线程)、数据库诊断(慢 SQL、CPU、内存)、基础设施(容器、过程)以及全链路诊断(诊断 分布式链路中的瓶颈点)。
  • 基于过来这么多年的积攒,咱们在全链路压测上的仿真度超过了 99%,最近几年的双 11 大促都是 0 重大故障,0 资损。

智能监控技术

只管后面做了很多事件,然而对于一个简单的业务来讲,线上零碎不可避免会呈现问题,所以怎么疾速发现问题、疾速应急、疾速复原起来就变得十分重要。

面对大促峰值的状况下,监控碰到的挑战也是微小的。在大促日志规模流量下,每秒日志量可能达到几百 G,荡涤流量可能每分钟达到几十个 T,怎么无效解决这些日志十分要害。

蚂蚁自研的时序数据库引擎 Ceresdb,通过优化采集技术和流式计算引擎,能够根本做到秒级监控,实现 1 分钟发现、5 分钟定位、10 分钟复原,确保线上工夫的疾速应急和响应。

1 分钟发现:故障在 1 分钟内被发现,干系人被引入故障处理流程。
5 分钟定位:在 5 分钟内响应故障呈现起因,并制订止血计划。
10 分钟复原:10 分钟执行结束止血计划,故障复原。

2021 双 11 节能减排

2021 年双 11,咱们从关注峰值、关注流量,重点转向了绿色计算,既思考老本也思考效率,确保技术可持续性。咱们通过一系列包含在离线混合部署技术、云原生分时调度和 AI 弹性容量等翻新技术手段,实现了整体资源各种调度,规模化利用绿色计算,节约了 64 万度电,碳减排 394 吨。

后面讲了很多保障系统稳定性的技术能力和办法,但对于每个组织来说,从头打造这些能力和体系,须要破费很长的周期,也须要做很多简单的工作,为了更好帮忙各行各业实现数字化降级和转型,蚂蚁团体也在踊跃鼎力推动相干能力的科技凋谢。

原生分布式数据库 OceanBase

接下来,咱们来看一个重要的产品——OceanBase。OceanBase 外部通过 9 年双 11 的验证,有十分多利用教训,也很成熟稳固。OceanBase 作为原生分布式数据库,具备无线扩大、永远在线的能力,保障数据不失落,30 秒内实现主动容灾复原。OceanBase 实用于各种大型场景以及对业务连续性要求高的行业,对于强一致性、高可用、高 HTAP 性能要求的行业也十分实用,目前在金融、政府、运营商、交通、能源等行业曾经有很多胜利施行的教训。

金融级分布式架构 SOFAStack

同时,咱们也对外开放了 SOFAStack 云原生科技产品,把单元化架构、服务网格 Service Mesh、全链路压测、监控应急体系统统打包在一起,将蚂蚁十多年技术能力通过产品化,实现成为成熟的商业化产品和服务。目前曾经服务几百家客户的外围业务零碎,咱们心愿通过这些致力,可能帮忙各行各业更好实现数字化降级和转型。

明天我就分享到这里,感激大家!

正文完
 0