关于后端:阿里云云原生一体化数仓-离线实时一体化新能力解读

简介：介绍MaxCompute+Hologres离线和实时数仓一体化优于之前有离线、有在线、有很多不同的引擎的实现计划，通过用实时的引擎做预处理，实现离线实时数据入仓后做更加实时的服务化BI剖析实际。
没来得及看直播的同学，能够看下直播回放。
直播回放：https://developer.aliyun.com/...

实时离线一体化概述
在讲实时离线一体化概述前，能够先回顾一下之前两位阿里同学的精彩演讲。
离线实时一体化数仓与湖仓一体--云原生大数据平台的继续演讲

https://developer.aliyun.com/...

云原生离线实时一体化数仓建设与实际

https://developer.aliyun.com/...

以后从第一代离线数仓倒退到第二代实时数仓，再到第三代实时离线一体化数仓，演进过程和价值能够参考上述两篇文章，明天分享的次要内容是实时离线一体化数仓的新能力。

大数据数仓体系从“纷纷杂乱”的一个架构演进到“化繁为简”的实时离线一体化数仓，其外围是基于流式计算引擎对接了 MaxCompute + Hologres离线及实时数仓，并通过互通实现数据的分层解决。以后这套架构实用于海量数据的数据治理、离线剖析、实时剖析、数仓集市、多模剖析、机器学习在线模型等场景，帮忙客户构建一站式的大数据分析平台，开释企业数据价值。

以后解决方案实用场景有数据实时剖析+数据离线剖析的业务，海量数据计算+剖析实时性要求较高的业务。，海量数据分析、点查。多源、多样、流量数据+业务数据的剖析服务业务。在理论业务中，如果有对时效性要求比拟低的，不须要用到实时剖析，还是应用 MaxCompute 离线数仓为解决方案。如果业务场景中，相似在线告警、在线预测等，能够了解为整体链路没有用到离线数据跟实时数据的一个联合。那就是典型的解决方案，比方实时计算Flink+Hologres做为实时性比拟高的实时数仓解决方案。

实时离线一体化，次要偏重强调适配于有离线业务和实时在线业务混合的综合利用场景，这样能够解决多元多样流量数据跟业务数据的一个剖析服务业务。

1.png

实时离线一体化劣势
从数据写入来看呢，有实时数据和离线数据，流式数据都能够反对。MaxCompute 在数据写入侧的特点是反对高QPS写入后，即可见即可查。从数据写入的通道来看呢，以后实时离线一体化反对批量数据通道、流式数据通道、实时数据通道。以及在数据写入之前比方kafka、Flink这种两头插件的反对，从一个数据源，从音讯服务中间件，把数据写入到 MaxCompute 两头零代码开发，能够间接用 MaxCompute 反对的插件来做。Hologres自身反对高性能写入和实时写入更新，以及写入即可查的能力，MaxCompute+Hologres相结合，笼罩了批量数据写入、流式数据写入、实时数据写入以及写入即可查的产品反对。

数据计算是多引擎反对，基于 MaxCompute 反对EB量级数据计算，在 MaxCompute 自身计算引擎内反对spark、MR、SQL。数据写入后，MaxCompute反对用 spark 流式解决，也能够用 MaxCompute SQL批处理。多引擎反对下实时计算提早到秒级乃至毫秒级，单个作业吞吐量可达到百万级。

在数据共享互通方面，是做到了MaxCompute&Hologres的数据互通，存储直读买通，能够从Hologres直读 MaxCompute 的数据，从 MaxCompute 到Hologres，以后上线的性能是通过表面去读取，直读的性能很快也会上线。这样一个劣势，能够做到同一份数据，用一个实时引擎一个离线引擎做解决，可能实现数据不挪动的状况下，能够在离线数仓解决完，在实时数仓做汇总，或者是从实时数仓读实时数据，联合离线数据去做交融数据计算跟剖析。

在剖析服务一体化劣势方面，这里自身有一个很大的特点是，MaxCompute 自身反对数据的交互式查问是秒级别的，因为MaxCompute提供了查问减速的一个能力，满足的场景就是秒级查问，如果实时性要求更高如亚秒级毫秒级，能够间接在剖析层利用对接到Hologres，反对PB量级亚秒级交互式剖析。

实时离线一体产品新能力解读
把实时离线一体化架构长处拆分到整个数仓开发链路外面，对应到一些产品能力。数仓的开发过程是从数据源->数据写入->数据荡涤->业务级聚合->数据分析&服务->AI&Reporting。在数据分析服务或者是一些在线利用场景外面，有第三方也有自用的产品利用封装，以及一些AI场景的在线剖析服务，这时能够对接到数据分析服务的一个接口，也能够对接到MaxCompute数仓外面的数据，或者是oss的数据，能够依据本身业务场景来决定。

在数据源，咱们反对第三方插件，如Kafka Connector，Logstash Connector，Flink Connector。数据写入层，反对批量数据通道、流式数据通道：行文件反对主动merge、实时数据通道。很快会提供基于数据写入的独享资源，也就是商业化资源，目前写入的计算资源是公共集群，收费提供，对于大业务量需要时，可能会呈现提早。不久会公布upsert能力，能够把业务库如rds数据实时更新到MaxCompute。

从数据荡涤来看，数据在写入MaxCompute过程中，反对update和delete能力，在这个过程中也在业务聚合这一层做了物化视图和渐进计算，以及布局中的自动化物化视图。在数据分析服务这一层，MaxCompute 提供了查问减速能力，在后付费过程无感知查问减速能力，以及在邀测过程中的预付费独享资源MCQA的查问。之前公布了针对预付费查问减速收费额度的一个能力，每天每个project有500次单个SQL10G 以下的查问额度。后续针对数据服务的一个对接，以及第三方利用的对接，如果用户是预付费，基于已购资源切分出一个资源组，作为独立查问减速资源，来满足包年包月用户。如果对数据分析服务有更高的交互式具体要求，能够对接Hologres。

在Hologres这一侧，咱们通过 MaxCompute 到 Hologres 的表面反对以及 Hologres 到 MaxCompute 存储直读，来实现数据的互通。后续的布局能力，咱们会做一个元数据买通，以及 MaxCompute 到 Hologres 的直读能力。在下层BI报表剖析过程当中，做了生态的一些接入，如网易无数、观远BI、自主剖析、在线服务有AI的在线模型，在线训练会间接对接到MaxCompute数仓数据。

2.png

实时离线一体产品新能力渐进计算
渐进计算从概念上来看，是一种可能通过解决增量数据并保护中间状态来实现计算的模式，处于传统流计算和批处理之间。能够看到下图，有一张交易表，是在某一个日期比方十二点一点到两点，每一个工夫点都有交易数据。也就是说，通过渐进计算，能够把每一个小时汇总的交易订单金额和交易订单，实现小时级别的统计，汇总到每个小时生产的独自文件，也就是说，渐进计算会主动把交易明细数据，做一个轻度的汇总。这样查数据时，就不须要去统计一个小时或者几个小时的数据，咱们能够通过渐进计算实现轻度汇总之后，间接去查统计好的数据。这个示例能够表明，交易订单数据也能够实时或者近实时写入MaxCompute中，也能够实时写入到Hologres。能够依据业务需要来做，比方写入进Hologres，相当于从订单数据到Hologres中，能够在流式链路外面做实时计算去实现小时级别的窗口统计数据，去做轻度汇总。如果写入MaxCompute，能够通过渐进计算实现小时级别的轻度汇总统计。在这个过程中，做到了实时数据实时写入，以及近实时的轻度汇总和下层的团聚，能够对数据分析服务提供数据的查问能力。

渐进计算的用处和劣势在于，能够依据数据按窗口周期存储，对查问最近的数据时，能够缩小计算，节俭计算资源的同时，进步计算效率。每次去拜访时，不必去查明细表，能够间接去查轻度汇总数据，这样无论是速度还是体验都有一个微小的晋升。比方从交易订单的数据，通过datahub流式写入到MaxCompute，在MaxCompute中实现渐进计算的轻度汇总，以及后续的数据生产，这一套链路是近实时的。另外一条链路是，datahub通过Flink去生产，由Flink实现各种统计，以及其余维度的计算，再写入到Hologres来提供生产服务的一个能力。

3.png

实时离线一体化产品新能力物化视图
物化视图是包含一个查问后果的数据库对象，他是近程数据的本地正本，或者用来生产基于数据表求和的汇总表。能够看下图示例，有一个订单表order保留明细订单记录，org组织机构表保留组织机构数据，如果查数据汇总时，须要把两张表数据先做关联，如下图示例代码。如果有物化视图，视图表就能够取代用户查问汇总的代码脚本，查问时间接查视图表即可。在这个过程中，物化视图反对用户设置数据更新频率，最快是五分钟，能够依据需要来做视图表的更新。

物化视图的用处与劣势在于，数据在写入时计算，数据进行预计算，进步查问效率，对客户通明，主动改写。比方订单数据实时的写入，能够通过物化视图每五分钟更新来实现下层利用数据的近实时汇总统计查问。如果这条链路在Hologres，能够走实时数仓链路来实现。MaxCompute 提供的物化视图能力，满足客户对数据时效性要求高，但又不是实时的数据更新需要。

那在整条开发链路外面，流式数据或批量数据写入之后，在 MaxCompute 中能够通过物化视图和渐进计算来实现数据汇总，再通过MCQA查问减速能力提供秒级别对外数据分析服务的能力。如果对交互式查问返回时延要求高，能够做汇总数据时把数据汇总到Hologres，通过Hologres对外提供数据分析服务能力，这个交互响应工夫能够达到毫秒级别。

4.png

实时离线一体化数仓架构
从架构来看，化繁为简之后的架构从左到右，能够间接通过Datahub数据总线把数据写入到 MaxCompute ，也通过实时计算（实时计算Flink版）生产数据总线（DataHub)实时数据写入Hologres提供剖析服务。这一套架构有两条链路，如果业务响应工夫要求十分高，能够走实时数仓链路，Datahub数据通过Flink实现实时数据计算写入实时数仓Hologres，提供数据给数据产品或者是实时大屏。如果对业务响应工夫要求不高的，能够通多Datahub间接写入数据到 MaxCompute。

在实时计算Flink生产实时在线数据时，也有不同的计算指标须要出现到离线数仓 MaxCompute 中，跟 MaxCompute中的一些数据做聚合计算，能够通过Hologres 直读的形式读取到MaxCompute聚合后的数据。通过Hologres 对外提供在线数据分析服务能力，底层数据能够是Hologres中的数据，也能够是MaxCompute中的数据。以后架构次要体现出的是实时离线一体化，但湖仓一体是在这一套架构中。不论是离线数仓还是实时数仓都能够跟数据湖中的数据互通。

基于以后架构次要提供了三个维度的服务能力

实时链路：通过实时计算（实时计算Flink版）生产数据总线（DataHub)实时数据写入Hologres提供剖析服务。

低延时或手动触发：Flink/DataHub通过流式写入MaxCompute，利用物化视图进行预计算提供业务聚合数据基于查问减速的剖析服务。打消了对作业和调度的治理。

批处理：MaxCompute反对多种数据起源的数据，进行大量同步和解决的数据计算。

5.png

实时离线一体化数仓数据建模
那实时离线一体化怎么应用呢？能够看下图示例。

电信运营商流量采集业务剖析：依据对流量采集业务剖析，比拟适宜数据仓库罕用建模办法——雪花模型。根据业务特色和雪花模型建模准则，实现数仓建模。

6.png

实时离线一体化数仓分层
此示例中，运营商流量表为实时数据表，针对流量表关联了采集机维度表和地区维度表，构建了基于实时流量数据的雪花模型。模型做完后，基于数仓的分层是，ods层为采集的流量表数据和采集机规定表，同步到MaxCompute或Hologres做相应规定解决。在dwd明细数据这一层，次要针对荡涤完之后数据造成采集流量明细表和采集机规定事件明细表。如果是实时离线相结合的架构，dwd层数据能够汇总到Hologres中。如果是汇总到MaxCompute，能够用分区表来实现，在分区表内计算工夫或者事件规定相符合的数据，在分区表内做轻度汇总。针对汇总表再去实现采集规定事件的统计包含流量数据平均值的统计分析。

7.png

实时离线一体化案例场景
商家用户下单总数

比方商家要依据用户历史下复数给用户优惠，商家须要看到历史下了多少单，历史T+1的数据要有，明天实时的数据也要有，这种场景是典型的实时离线一体化架构。咱们能够在Hologres里设计一个分区表，一个是历史分区，一个是今日分区，历史分区能够通过离线的形式生产，今日指标能够通过实时的形式计算，写到今日分区里，查问的时候进行一个简略的汇总。

8.png

车联网

从左到右数据源有车端数据、CAN总线、用户行为、车载TBox，通过Datahub数据总线，别离写入实时计算Flink版进行生产写入Hologres实时数仓，和MaxCompute 离线数仓做数据分析。实时数据能够通过Hologres间接对数据服务端停供在线服务剖析和数据服务API。同时Hologres能够读取在MaxCompute 中产生的批处理后果数据，也能够读取到物化视图或者渐进计算主动汇总的数据。同时MaxCompute 离线数仓也会解决用户核心UDS和主机厂零碎数据，这些数据有一些业务数据或者是T+1数据，这些数据处理完后，能够进行冷数据归档到oss，这些数据能够提供给规范的主动驾驶进行AI机器学习。这一套利用场景就是实时离线一体化的规范应用场景。

9.png

更多阿里云大数据产品>>

MaxCompute 二维码拼图.png

原文链接：http://click.aliyun.com/m/100...
本文为阿里云原创内容，未经容许不得转载。