2020年双11,云原生实时数仓首次在阿里巴巴双11外围数据场景落地,实现商业全链路实时化,毫秒级海量数据处理能力。搜寻举荐业务数据开发效率晋升4倍,菜鸟物流包裹数据链路从小时级优化到3分钟,考拉分钟及小时业务1分钟内实现,实时数据仓库的建设在瞬息万变的市场竞争中成为了标品!
DataWorks独享数据集成资源组(反对实时同步)首月5折>>

实时同步-实时数仓第一步

实时数仓的建设,第一步就须要将数据同步到大数据计算引擎,个别客户的RDS/MySQL业务数据库在理论生产中都是实时不停的进行着数据变动,如何及时将这些数据同步到数据仓库中是一个难题,同时实际上,只有极少数客户的RDS业务数据库是全新建设的,对接数据仓库时只须要进行实时同步。他们大多数都有历史既有的数据,只有在这些数据上云之后的实时数据变更才有业务意义。

传统实时同步形式的艰难点

传统的实现形式是客户先手工建设离线全量数据同步工作,并进行实现历史全量数据的搬迁。尔后再进行手工建设实时同步工作。然而个别客户都是有十分多的数据库,每个库中有十分多的表,对这些表一一建设离线和实时同步工作,是一个很繁琐和容易出错脱漏的过程。同时实时同步工作启动的机会也难以把握,尤其是对于没有关键字段做主键去重时,提前启动容易造成数据反复,滞后启动容易造成数据脱漏。

DataWorks数据集成实时同步高效解决方案

DataWorks数据集成提供了 “RDS/MySQL一键实时同步至MaxCompute” 的解决方案,能够将RDS/MySQL中的数据库,通过一次性的简略配置,全增量一体化同步到MaxCompute中,主动实现先全量数据迁徙,而后实时增量放弃更新。并反对对于实时同步到MaxCompute的数据,依照指定分区主动建设和Base表的merge工作并执行。整套流程齐全自动化,无需人工干预,用户只需关注最终的业务后果表即可。

实时同步性能与性价比

DataWorks数据集成采纳自研高性能引擎,在雷同的机器规格状况下,RDS实时同步性能最高为 其余数据同步计划的2倍 ,而 价格只有其4分之1 。以一台24核48G内存的机器举例,DataWorks数据集成RDS实时同步最大QPS为3.5万,比其余数据同步计划 QPS高1倍 ,能够运行18条实时同步链路,而这个规格的机器,每月仅需3000元(以杭州的为例)。
详见: 《独享数据集成资源组性能和计费规范》

实时同步性能劣势

  • 针对RDS/MySQL能够整库全副表或者局部表、批量的大规模导入MaxCompute与Hologres
  • 历史存量数据自动化全量导入,目标MaxCompute、Hologres表能够主动建设,也能够应用已有,反对精细化配置。
  • 实时最新数据在全量同步后主动启动导入,保证数据既不反复也不失落。
  • 白屏化简略配置整个计划,轻松几步向导即可实现。
  • 反对整个计划级别的运维管控,更高level来操盘,防止繁琐的底层运维。

原文链接
本文为阿里云原创内容,未经容许不得转载。