2020 年双 11,云原生实时数仓首次在阿里巴巴双 11 外围数据场景落地,实现商业全链路实时化,毫秒级海量数据处理能力。搜寻举荐业务数据开发效率晋升 4 倍,菜鸟物流包裹数据链路从小时级优化到 3 分钟,考拉分钟及小时业务 1 分钟内实现,实时数据仓库的建设在瞬息万变的市场竞争中成为了标品!
DataWorks 独享数据集成资源组(反对实时同步)首月 5 折 >>
实时同步 - 实时数仓第一步
实时数仓的建设,第一步就须要将数据同步到大数据计算引擎,个别客户的 RDS/MySQL 业务数据库在理论生产中都是实时不停的进行着数据变动,如何及时将这些数据同步到数据仓库中是一个难题,同时实际上,只有极少数客户的 RDS 业务数据库是全新建设的,对接数据仓库时只须要进行实时同步。他们大多数都有历史既有的数据,只有在这些数据上云之后的实时数据变更才有业务意义。
传统实时同步形式的艰难点
传统的实现形式是客户先手工建设离线全量数据同步工作,并进行实现历史全量数据的搬迁。尔后再进行手工建设实时同步工作。然而个别客户都是有十分多的数据库,每个库中有十分多的表,对这些表一一建设离线和实时同步工作,是一个很繁琐和容易出错脱漏的过程。同时实时同步工作启动的机会也难以把握,尤其是对于没有关键字段做主键去重时,提前启动容易造成数据反复,滞后启动容易造成数据脱漏。
DataWorks 数据集成实时同步高效解决方案
DataWorks 数据集成提供了 “RDS/MySQL 一键实时同步至 MaxCompute” 的解决方案,能够将 RDS/MySQL 中的数据库,通过一次性的简略配置,全增量一体化同步到 MaxCompute 中,主动实现先全量数据迁徙,而后实时增量放弃更新。并反对对于实时同步到 MaxCompute 的数据,依照指定分区主动建设和 Base 表的 merge 工作并执行。整套流程齐全自动化,无需人工干预,用户只需关注最终的业务后果表即可。
实时同步性能与性价比
DataWorks 数据集成采纳自研高性能引擎,在雷同的机器规格状况下,RDS 实时同步性能最高为 其余数据同步计划的 2 倍 ,而 价格只有其 4 分之 1 。以一台 24 核 48G 内存的机器举例,DataWorks 数据集成 RDS 实时同步最大 QPS 为 3.5 万,比其余数据同步计划 QPS 高 1 倍 ,能够运行 18 条实时同步链路,而这个规格的机器,每月仅需 3000 元(以杭州的为例)。
详见:《独享数据集成资源组性能和计费规范》
实时同步性能劣势
- 针对 RDS/MySQL 能够整库全副表或者局部表、批量的大规模导入 MaxCompute 与 Hologres
- 历史存量数据自动化全量导入,目标 MaxCompute、Hologres 表能够主动建设,也能够应用已有,反对精细化配置。
- 实时最新数据在全量同步后主动启动导入,保证数据既不反复也不失落。
- 白屏化简略配置整个计划,轻松几步向导即可实现。
- 反对整个计划级别的运维管控,更高 level 来操盘,防止繁琐的底层运维。
原文链接
本文为阿里云原创内容,未经容许不得转载。