关于数据库:双11特刊|一站式在线数据管理平台DMS技术再升级高效护航双11

47次阅读

共计 3857 个字符,预计需要花费 10 分钟才能阅读完成。

简介:10 万 + 企业独特抉择的数据库服务平台

阿里云数据库已间断多年稳固撑持天猫双 11,历经极其流量场景淬炼。除了保障稳固顺滑的根本盘,往年大促期间数据库通过全面云原生化,大幅晋升用户体验,让技术帮忙业务产生更有价值的消费者体验,继续通过技术创新赋能用户,引领技术倒退门路。

双 11 已圆满闭幕,但技术的摸索,仍未止步。

前言

阿里云一站式在线数据管理平台 DMS,从最早的服务于团体外部业务的各个工具型产品,经验了阿里团体数据库各个期间的技术及架构演进、历年双十一的大促考验、云原生转型,演进到明天以对立的云架构,向阿里团体外部以及内部云客户提供一站式的数据管理服务,产品一直的拓展边界,晋升技术深度,将阿里团体超大规模数据的治理办法,推向和服务于所有开发者。

要害组件

数据管理 DMS: 作为数据库团队 2009 年上线给研发同学应用的一站式数据库开发平台,为团体、蚂蚁以及私有云客户提供数据库实时拜访、数据库研发标准落地、数据安全治理以及平安生产等能力。同时联合数据库备份 DBS 能力为用户提供一站式公共云,混合云,线下自建数据库备份,除了稳固的备份复原外,在 2019 年公布了云原生 CDM(Cloud Data Management)能力,实现备份数据秒级复原,撑持了金融、教育、游戏等宽泛的客户业务场景。

数据备份 DBS:是数据库团队 2017 年公布的数据库备份产品,为用户提供一站式公共云,混合云,线下自建数据库稳固的备份服务,同时在 2019 年 release 了阿里云第一款云原生 CDM 产品,利用云的个性帮忙客户数据秒级复原,秒级复原产品曾经撑持了教育,游戏,等重要客户场景。

数据传输 DTS:(Data Transmission Service,简称 DTS),从 2011 开始撑持阿里团体容灾到异地多活到阿里云官网上云,于 2015 年 4 月命名为 DTS 实现产品化,是寰球第一个私有云数据传输产品,交融了阿里团体的性能和业务特点与私有云的数据源多样性。集数据迁徙、订阅及实时同步性能于一体,可能解决公共云、混合云场景下,远距离、秒级异步数据传输难题。其底层基础设施采纳阿里双 11 异地多活架构,为数千上游利用提供实时数据流,已在线上稳固运行 6 年之久。DTS 反对关系型数据库、NoSQL、大数据 (OLAP) 等数据源,在传统商业数据库迁徙尤其是 Oracle、DB2 大机 & 小机系列等商业数据库具备兼容评估转换和实时同步能力。

DMS 总述

DMS : 联合数据管理、数据备份、数据传输的技术积淀,对立打造为全新 DMS 产品,为用户提供一站式的全域数据资产治理、数据库设计开发、数据集成与开发的全链路能力,在 2021 双十一期间,为团体用户提供全方位的数据资产治理服务。

业务挑战

局部业务因为历史数据沉积,使得存储水位过高、表越来越大 RT 回升,面对这类问题 DMS 提供了历史数据清理的性能,可能让业务无感的进行历史数据的删除清理,局部场景在清理实现后碎片率大增,存储回收成果个别,面对这种状况,研发须要自行抉择一个工夫做优化表操作,操作审批繁琐,如何简化操作升高存储水位变成了一个业务侧迫切希望解决的问题。

在数据库的变更中,DDL 的变更是危险较高的一个操作,特地在分库分表的场景下如何管制 DDL 变更危险是业务同学对 DMS 提出的问题。

数据订阅作为泛滥中台产品的上游,提供了诸如利用缓存生效、广告推送、搜寻举荐以及双十一独有的 GMV 大屏等业务场景的性能根底,往年新引入的库仓一体化架构 OLTP 到 OLAP 能力,为手淘交易订单搜寻性能带来的能力晋升和用户体验大幅优化。

手淘订单搜寻,用户订单搜寻命中率低,用户可能只记得商品名的含糊信息和商品店铺的信息,老链路的订单搜寻只能依据查问关键字在数据库进行 like 匹配,如果输出的关键词不精确可能搜不到订单;如果搜索词过短,用户查找订单工夫长,用户为了增大命中率,会输出较短的关键词,这样查问的订单数量过多,同时搜寻的后果又没有分类,用户要在搜寻后果中找指标订单,只能滑动下一页,查寻工夫长,只能在双十一大促期间进行性能降级。

2021 年双 11 大促,首次所有团体数据库 100% 上云,海量实例同时部署在中心站,团体作为 VIP 客户和私有云客户同 region 部署,这样会使得备份存储的流量压力十分大,如果没有相干的技术计划,会导致团体上云和私有云客户相互影响,而增量备份又是这外面的外围问题,当备份存储流量压力十分大的时候,增量数据沉积会导致客户日志磁盘空间打满导致实例 RO,以及无奈复原到任意工夫点。

技术升级

无锁数据变更、无锁表优化

通常在历史数据删除场景下,delete 语句会携带工夫等条件,而工夫条件并不一定存在索引,会导致删除速度极慢,且占用数据锁;同时如果删除数据量较大,会受 binlog 事务大小束缚导致失败。

DMS 通过将大事务转化为小事务的形式,管制执行工夫、管制事务影响行数,通过优化后 400GB 的表删除一千万条数据约 40g,迟缓删除占用时长 5 个小时,0 条慢 SQL。

通过无锁数据变更实现对超大表的历史数据清理之后,再通过 DMS 的无锁变更技术,从新对表数据做一次搬迁,达到优化表空间的目标。

DDL 灰度变更

业务同学在对数据表进行构造变更时,通常 DDL 是一个整体事务,一旦呈现问题整张表不可拜访。而在分库分表场景下,在逻辑表维度上的业务被拆分为了多份,如果依然整体进行变更,将不会施展分库分表在变更上的劣势。

利用这些分片来升高变更危险进行灰度是一个比拟好的抉择,通过灰度策略管制,定义分库分表的灰度策略为单表级别灰度、单库下灰度、单实例下灰度三种形式。有了灰度,用户构造变更更加淡定。

高效数据备份

大促峰值日志备份 PITR 能力不降级,DMS 对团体 XDB 产生 Binlog 的数据进行了压缩裁剪,同时联合团体 XDB 多正本节点的日志个性做到只备一份日志的能力。

流量分流:DMS 对 XDB 的日志进行实时备份,在外部加了流量规定,能够将局部 XDB Cluster 的实例备份到其余存储上,达到分流的作用。

少流量产生:DMS 对 XDB 产生的 binlog 数据进行了压缩裁剪,只备份了 XDB leader 下面的数据,因为 XDB leader&follower 上 binlog 完全一致,所以在异样复原流程,只有找到对应的 binlog 断开的地位,连接上 follower 的日志即可。

流量隔离:思考到团体上云客户和私有云客户在备份流量和数量上的相互影响,所以对团体上云全量 / 增量,私有云其余客户全量 / 增量,进行了 bucket 隔离,同时对全量 bucket 进行了业务流量预测的限流,保障了私有云客户 & 团体上云客户增量有较大的下限,不至于流量不够导致无奈满足秒级 RPO。

0 点峰值体现:第一次实现了双十一大促日志备份不中断,保障了秒级 RPO,团体峰值流量日志写入备份存储流量和总流量达到了数百 Gb/s,保障了实时写入 RPO。

库仓一体技术架构

之前是通过数据库 T + 1 到数据仓库再回流到数据库展现相应的计算结果,链路较长,保护应用老本高,数据提早大,高峰期对源库影响大,今年的大促过程淘宝的历史订单搜寻性能是限流应用的。

往年通过 DMS+ADB 一键实现的库仓一体化架构实现了实时的数据获取、实时传输与加工、实时查问与展示,实现了全实时反对多维数据分析场景的交易订单搜寻能力,0 点峰值 DMS 写 ADB 在 RPS 百万级别的流量下全程毫秒级提早,ADB 实时查问后果毫秒级返回。通过库仓一体技术架构降级后,手淘订单搜寻减少了“猜你想搜”和“类目搜寻”的能力:

猜你想搜:依据搜索词举荐联想词和店铺名,用户能够点击联想词和店铺名进行搜寻,减少用户搜寻的命中率;

类目搜寻:减少了按店铺名进行搜寻的性能,使得用户搜寻失去的订单列表按类目进行分类,用户订单依据 tab 页分类,缩小每个 tab 的下拉数量。

最终通过库仓一体架构,解决了过来大促性能降级给用户带来的应用影响,在本次双十一过程中的性能齐全凋谢应用。

库存业务

基于阿里巴巴单元化架构的根底,用户购买商品时下单流量会被分流到各单元。DMS 数据实时同步能力保障了各单元间数据库中数据的实时统一,同时 DMS 提供的数据实时订阅性能是库存利用基于数据库变动实时更新缓存服务的性能根底。这些能力保障了用户在客户端的下单流程中对于残余库存所见即所得,晋升了整个购物体验。

DMS 在库存业务百万级别 RPS 的流量压力下,保障了全链路高效稳固。

交易 &GMV 大屏

在交易业务上,DMS 为面向社会的 GMV 媒体大屏和面向外部高管的大屏提供最上层实时数据生产的能力。链路上的问题会间接影响到大屏上的数据准确性,为了保障稳定性,DMS 在交易链路上采纳了全链路主备服务的双活架构,最终在交易峰值百万级别 RPS 的流量下保障了 GMV 全链路高可用。

DMS 撑持大促小结

DMS 在 2021 天猫双十一期间:

用数据脱敏形式爱护了近 50 万次敏感数据的动静实时拜访和动态拜访,首次上线的精密封网管控,使得平安生产效率晋升 50%,无效拦挡大查问千余次,拦挡 DDL 变更百余次。

撑持了 100% 团体上云实例复原秒级 RPO 的性能,引入技术计划将流量带宽占用升高了 50%,首次反对应用非 OSS 存储分担大促峰值流量,保障了峰值流量增量备份不降级,全面保障了团体上云外围交易场景能够随时将数据恢复到任意工夫点,晋升了整个双 11 的稳定性。

全网同步链路上万条,订阅工作几十万个,大促 0 点流量峰值期间,数分钟内累计从源库拉取 PB 级日志数据,累计向指标库写入上千亿条事务,期间全网工作无中断,外围工作无提早。

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0