乐趣区

关于大数据:阿里云云原生实时数仓升级发布助力企业快速构建一站式实时数仓

9 月 14 日,阿里云云原生实时数仓降级公布。阿里云计算平台的产品专家分享了实时计算 Flink 版和 Hologres 构建企业级一站式实时数仓的外围能力降级及新性能解读。

以后,大数据正在从计算规模化向实时化演进,实时数仓的利用场景也越来越宽泛。例如:央视春晚,可通过大屏实时统计全国的收视率和观众画像;多个城市正在发展的城市大脑我的项目,通过 IoT 的摄像头信息,实时捕捉各个城市中的交通、车辆、人流等信息进行交通监察与治理;银行、证券交易所等金融机构实时监控交易行为,进行反作弊反洗钱等行为的探测;电商大促场景下,可通过大屏实时展现成交额并实现毫秒级更新。除此之外,智能客服、物流跟踪、订单剖析、直播品质监控等也是实时数仓的典型利用场景。由此可见,实时数据的解决与剖析为越来越多的企业发明了业务价值。

实时数仓越来越重要。然而建设实时数仓时,企业却经常面临各种问题。以后实时数仓建设的痛点次要有以下三方面:首先,企业对于数据的准确性、时效性、性价比三方面都同时具备强烈需要。岂但对数据实时写入能力要求高、查问延时敏感、查问维度繁多且维度不固定,而且心愿兼顾明细查问和聚合查问两类不同负载,同时要求在老本上有所管制。其次,随着手机利用、小程序等场景日益增多,企业对于半结构化数据的剖析需要强烈。第三,因为业务需要更新频繁,实时工作变更频繁,企业须要更加麻利的实时数仓来适应频繁的变更。

为了解决客户建设实时数仓中面临的痛点,阿里云实时计算 Flink 版 +Hologres 实时数仓解决方案降级。

本次降级公布的新性能集中在数据写入、查问与剖析、企业级能力三个方面。

数据写入:领有实时利用场景的客户(如实时大屏、实时风控等)对于数据写入的实时性有着极高要求,要求数据写入即可见。同时,因为企业数据起源简单,会波及到许多的数据更新、修改的场景,进一步加大了实时写入与更新的难度。Hologres 作为一站式实时数据仓库引擎,提供海量数据高性能的实时写入,数据写入即可查。同时,阿里云实时计算 Flink 版 +Hologres 可通过主键提供高性能的 Upsert 能力,整个写入和更新过程确保 Exactly Once,满足对数据的合并、更新等需要。

企业在数据写入时,还面临着数据时效性低、老本高、同步效率低等艰难。本次公布的表构造变更主动同步性能解决了数据时效性问题,整库同步性能缩小了资源节约,分库分表合并同步晋升了数据同步效率。

随着业务的迭代和倒退,数据源的表构造变更已成为常见景象,企业须要及时批改实时同步作业以适配最新的表构造。这些操作带来了较高的运维老本,也影响了数据时效性。为解决这个问题,阿里云实时计算 Flink 版反对通过 Catalog 实现元数据的主动发现和治理,配合 CTAS(Create Table AS)语法,应用一行 SQL 实现数据同步和表构造的变更主动同步,升高运维老本,晋升数据时效性。在理论工作场景中,分析师常要通过单张表逐个同步的形式将整个数据库同步到数仓中做进一步剖析,岂但浪费资源,也为上游数据库带来较大压力。针对这个问题,阿里云 Flink CDC 提供了整库同步个性,节省成本,升高数据库压力。另外,分析师也经常须要将分库分表的业务数据汇聚到一张数仓中的大表中进行剖析,针对这种场景,阿里云实时计算 Flink 版 +Hologres 提供了分库分表合并同步个性,通过在 CTAS 语法反对源库和源表的正则表达式,源数据库的分表能够高效地合并同步到上游 Hologres 数仓中。

查问与剖析:本次公布的 Hologres 实时物化视图性能优化了聚合场景,缩小计算量,显著晋升查问性能。JSON 列式存储优化晋升了半结构化数据查问和存储效率。Hologres Binlog + 阿里云实时计算 Flink 版反对了有状态的全链路事件实时驱动开发场景。

Hologres 新版本已反对实时物化视图性能,数据在写入时即预计算,以空间换工夫,进步查问效率。JSON 作为一个数据单位,提供了存储上的灵活性,但限度了剖析时的效率,为了拜访 JSON 中局部节点不得不读取整个 JSON 数据结构,效率十分低下,存储上也很难压缩。Hologres 的 JSON 列式存储优化,均衡了灵活性 (Schemaless) 与性能,晋升数据存储压缩效率,缩小数据转换等操作,晋升查问效率。Binlog 是 Hologres 很有特色的新能力,反对对每次数据更新的具体记录,利用在数仓档次间数据实时加工、多实例间数据同步、数据行列转换、数据变化检测等多种场景。

企业级能力方面:Hologres 提供了数据加密和脱敏、访问控制、容灾备份等能力。

除了产品性能公布外,产品专家还分享了某出名寰球 TOP20 游戏公司的案例。该客户通过阿里云 Flink 版 +Hologres 实时数仓计划替换开源架构,简化数据处理链路,对立数仓架构,对立存储,晋升查问性能,完满撑持数据分析、广告投放、实时决策等多个场景,助力业务快速增长。

退出移动版