关于后端:阿里云云原生一体化数仓-分析服务一体化新能力解读

54次阅读

共计 6043 个字符,预计需要花费 16 分钟才能阅读完成。

简介:本文次要介绍如何通过 Hologres 在剖析和服务场景下的新性能,包含资源隔离,数据湖(Delta、Hudi)的反对、JSON 优化反对等。
分享人:阿里云智能 产品专家 丁烨

没来得及看直播的同学,能够看下直播回放。
直播回放:https://developer.aliyun.com/…

剖析服务一体化始终都是阿里云离线实时一体化数仓的重要能力翻新

剖析服务一体化需要剖析
业务在线化、经营精细化驱动数据实时化
随着互联网的信息,业务对于在线化、经营精细化的需要日益强烈,领导驾驶舱、实时大屏等,起到了越来越重要的作用。对于 ToB 业务,须要反对数据决策,将数据分析的能力赋予业务,同时要提供实时的精细化经营的能力;对于 ToC 的业务,外围是须要进步在线转化的效率,那么就产生了实时数据中台,实时用户画像,个性化举荐和实时风控的需要。

1.png

批流多路、混合负载的实时数仓场景
这是一个常见的业务需要架构。日志零碎的数据和交易系统的数据实时地写入数仓。对于写入的数据,会通过两条链路,一条链路会生成明细数据,由前端 BI 零碎在线 Ad-hoc 的查问。同时也能够继续的被 Dashboad 实时的展现进去。同时这些明细数据也会进行实时聚合,造成聚合数据,比方页面流量明细,用户点击明细会被聚合成 5 分钟的商品浏览记录,7 天的浏览记录,30 天的流转记录等,这些数据对举荐零碎提供在线服务,同时这个过程中还会与维表数据关联,例如用户的特色,商品特色等,关联后进行聚合以服务于在线零碎。

2.png

传统 Lambda 架构“纷纷杂乱”,数仓建设之痛
为了满足业务这样的需要,个别会应用 Lambda 架构搭建数仓,客户实时的写入例如 Clickhouse 或者 Druid 这样的 OLAP 零碎,同时对于在线服务,应用 Hbase、Redis 这样的零碎撑持,最初,对于离线服务将其归档到 Hive 和 MaxCompute 这类离线数仓中,有时业务须要离在线一体化的剖析,会用到 Presto 来减速查问这些离线数据和在线数据,而后作为对立进口,再提供给报表和 Dashboard 去应用。上文提到过可能还会有一些实时聚合的需要,以及维表的需要,这些维表往往会存在 HBase 外面,同时跟交易数据实时聚合后,变成咱们提到的如 5 日的 sku 的浏览量或者是七日页面流量数据等,再写回 HBase 外面或者 Redis 外面,再实时的面对如 API 的服务,或者手机 App 这种服务。那自然而然咱们会发现在整条链路外面会有很多线,天然会造成一些问题,比方架构简单,数据同步难,资源耗费大,数据孤岛等等一系列的问题。不难发现,在这种架构中,数据屡次被搬迁,导致加工链路长,数据不统一,且随着组件减少,开发难度,架构复杂性,运维难度随之而减少。

3.png

每种技术仅解决一种问题
在这个架构下,咱们一起来看看每种技术别离解决了什么问题。咱们大略能够将这些技术分为三类,这是咱们能够想一下整个场景的业务要求,例如适宜聚合计算,高吞吐,高可用等。

第一类就是事务数据库,个别事务数据库是依照行存储的,对于交易型的数据有很好的更新能力,然而对于千万级及以上的统计型的查问,耗费时十分大的,所以个别咱们也不必事务型数据库做剖析。

第二类是 OLAP 零碎,这一类技术会对剖析的场景做很多的优化,例如列存的技术,分布式的技术,索引的技术等等,这类的技术查问都很快,然而往往在更新上稍显有余。

第三类在大数据分析场景中也很常见,咱们把它们定义为 serving 的零碎,须要提供在线服务,须要有高吞吐和超快的查问相应,然而就义了灵活性,例如文档数据库,或者 KV 查问的数据库,对于 Key/Value 的查问和更新的效率都十分高。

现有的架构,就是依据业务的特色,将不同的业务拆分到不同的零碎存储,数据在各个系统中替换,每一次的数据交换就带来了数据搬迁的老本,数据不统一的可能性和数据开发的复杂性。所以大家自然而然的在很多畛域做翻新,第一类就是在 TP 和 AP 畛域做翻新,在混合负载的场景下,应用一种技术解决 TP 和 AP 的负载,一个零碎既反对事务又反对剖析,这个状态十分的现实,咱们也心愿这个零碎可能真正的落地,然而咱们看来当初这个零碎还有些过于现实。因为要反对事务,那么会带来更多的锁的开销,那么在整个并发查问和更新上会有更高的代价,和更多的负载。其实从左侧也能够有一些翻新,咱们发现左侧最显著的是不反对事务。如果不须要那么多事务,那么不须要这么锁的,那么更有可能反对更高的查问性能、提供更强的写入和更新能力,可能左侧的技术呢,更加能笼罩咱们以上提到的剖析和服务一体化的场景。

4.png

解决问题的计划:剖析、服务一体化
Hologres 就是合乎左侧所说的剖析和服务一体化的这么一个产品。一套零碎反对多个场景,OLAP 的剖析能够、点查能够、在线服务也能够,同时反对离线的数据导入和实时的数据更新。真正意义上做到剖析服务一体化。

5.png

剖析服务一体化产品新能力解读
剖析服务一体化产品能力需要
其实产品的能力也是和需要相干的,在 OLAP 剖析场景,咱们提供了高性能的实时写入与更新能力,写入即可查,应用了列存,压缩,索引等技术,以撑持高性能的查问剖析。同时还反对了基于主键的全量更新和部分更新场景,这种能力在实时场景下尤为重要,实时场景下数据通常来在于 OLTP 的交易系统,事务型数据库中的数据通常都是有主键的,同时主键的设置也能无效的防止脏数据的反复写入,所以当初主键更新能力在实时场景下也越发重要。同时在线上服务场景,咱们反对了行存,可能提供上万乃至千万级别的 QPS 的 Key/Value 点查能力,可能对于行存的数据反对多正本的高可用能力,保障服务的高可用。因为服务场景是十分敏感的,须要更强的资源隔离保障服务的稳定性,所以咱们当初提供了读写拆散的架构,防止了高吞吐写入对于读的影响。最初,在数据湖剖析的场景中,咱们能够对于 MaxCompute 的数据进行离线减速,无需数据搬迁即可剖析 MaxCompute 中的数据,并且咱们可能反对每秒百万行数据的极速同步,缩小离线重刷等场景的数据提早。

6.png

Hologres 技术特点
为什么 Hologres 能做到这些呢,其实没有那么多神秘的中央,还是得益于 IT 技术的倒退,当初网络带宽越来越大,当初存储计算拆散的架构,应用了阿里云自研的分布式文件系统盘古,这样就能将整个零碎做的更轻,做到多正本和高可用。在发生意外的时候,能够疾速的从盘古上将数据加载回来,疾速复原服务。下一步是对于存储的,对于数据更新的场景呢,过来很多的零碎都是依据扫描场景设计的,所以对于疾速更新不太适宜,Hologres 底层存储应用了 SSD 的存储介质,这样的介质随机读写能力更强,这样就让架构设计的时候就能够抛开传统的针对扫描场景的零碎设计,有行存有列存,来应答不同的场景。第三个是 CPU 的多核化,随着当初 CPU 的外围越来越多,那么晋升 CPU 的利用率,施展并行计算的能力,就能够更无效的晋升性能,Hologres 自身应用 C ++ 进行开发,应用了全异步的执行引擎,最大水平的利用了多核的性能。

7.png

从行存、列存到行列共存
此前的版本中,咱们反对行存,数据按行存储,行存更加适宜 Key/Value 点查的场景,用于撑持高 QPS 的查问场景。同时也反对了列存,列存是将数据按列存储,更加适宜 OLAP 场景。然而事实场景会更加简单,一张表生成后很难相对的只反对一种场景,因而咱们推出了行列共存表,一张表在后端同时存储一张行存表也存储一张列存表,Hologres 外部保障读写一致性,优化器会依据查问的特色,对于适宜的场景应用最适宜的存储进行答复查问。这样同时兼顾了行存和列存的劣势场景。

8.png

资源隔离,高可用,对立存储
为了进步可用性,和提供更强的资源隔离的能力,咱们当初不仅反对同一实例内的线程级别的资源组隔离,还能反对共享存储的高可用模式,多个实例共享一份存储。对于读写的主实例,提供高性能写入能力,进行加工负载。同时配置多个只读从实例,用于满足不同负载的需要,例如一个只读从实例提供在线的 OLAP 剖析,一个只读从实例反对点查的剖析。相互之间互不影响,实现高可用和资源隔离。

9.png

剖析服务一体产品新能力解读
这里算是一个预报,Hologres 在行将公布的 1.3 版本中,进一步的提供了更多的能力,在数据湖离线减速的场景,反对了读取 OSS 上的 Hudi 和 Delta 格局的数据,同时反对了 MaxCompute 的 Transactional Table 的离线减速。数据写入的场景上,进一步扩大了 Fixed Plan 反对的场景,反对了更新局部列,写入分区父表等场景。在数据查问上咱们反对了实时物化视图,用来减速实时聚合查问场景。同时反对了 JSONB 的列存优化,通过采纳列式存储,进步存储效率和查问效率。同时针对很多用户日常应用的分区表场景,反对了主动创立和删除分区子表,便于用户更加便捷的治理分区表。同时还有很多针对查问的优化。最初在生态兼容上,咱们反对了 Oracle 扩大包,兼容了数百个兼容函数。同时 PostGIS 反对下推到 Hologres 原生的引擎,晋升了查问效率。当然作为一个大数据产品,通常要用于对接 BI 零碎,咱们在最新版本对于 Tableau 的官网测试集的通过率达高了 99% 以上。

10.png

冷热分层,老本优化
针对几个较为重要的性能,在此也做一些开展。在 1.3 中,为了进一步帮忙客户优化老本,提供了冷热分层存储。在业务中,对于分区表中的数据,通常业务会高频拜访近期的分区的数据,这样的须要高频拜访的数据,应用 SSD 的存储介质中,以满足高性能拜访的需要。随着工夫的推移,热数据会慢慢的变为拜访频次较低的冷数据,此时零碎能够依据用户设置的策略,将零碎转到 HDD 的存储介质中,以优化存储老本。

11.png

Fixed Plan 场景拓展,晋升写入性能
Fixed Plan 是 Hologres 独有的执行引擎优化形式,传统的 SQL 执行要通过优化器、协调器、查问引擎、存储引擎等多个组件,例如这样一条 SQL,如果没有走 FixedPlan,那么其执行打算如下所示,整个过程须要通过优化器、协调器、查问引擎、存储引擎等多个组件。而 Fixed Plan 抉择了短门路(Short-Cut)优化执行 SQL,绕过了优化器、协调器、局部查问引擎的开销。通过 Fixed FrontEnd 间接对接 Fixed Query Engine,实现 SQL 执行效率的成倍晋升,是反对高吞吐实时写入,高并发查问的要害优化办法。所以如果应用了 Fixed Plan,对应的执行打算就如图所示。以下是一个比照,对于数据更新场景,能够看出,无论是行存、列存、行列共存,应用了 Fixed Plan 之后,RPS 有 20 倍以上的晋升。下图橙色为应用了 Fixed Plan 之后的 RPS,黄色为不应用 Fixed Plan 的 RPS。

12.png

反对实时物化视图,优化聚合查问场景
在新版本中反对了实时物化视图。物化视图是一个通用的概念,个别的数据库须要定期刷新物化视图,存在肯定的数据滞后性。Hologres 的物化视图无需手动刷新,数据在写入时即预计算,进入物化视图。例如一个简略的业务场景,某客户有 100 多家门店,他想实时查看各个门店营业支出状况,以便实时调整经营策略。客户的明细表如下所示,存储了订单的明细数据,其中有订单号,客户号,门店 ID,订单日期,订单金额。创立物化视图后,在数据写入明细表后,Hologres 会实时的进行物化。当客户写 SQL 的时候,零碎能够主动改写 SQL,使 SQL 反对查问物化视图的数据,以晋升查问性能。

13.png

JSON 列式存储,晋升半结构化数据查问和存储效率
最初一个大性能是 JSON 列式存储,是指应用列存存储 JSON 的数据,因为列存的压缩效率很高,能够那么无效晋升数据的存储效率,节俭存储空间。例如一个常见的场景,对于某视频网站厂商,心愿查问男性用户的用户数量和平均年龄。他的数据依照如下的 JSON 类型存储。此时对应的 SQL 如图所示。此时须要查问后果时,须要扫描所有的 JSON 数据,把所有数据都读取进去,再汇总,能力失去最终后果。如果开启了列式存储,那么存储模式会如图所示,Hologres 会将其依照列的存储模式将其存储到盘古上,此时如果须要查问男性用户的用户数量和平均年龄,今须要扫描 2 列数据,能够显著的晋升查问效率。

14.png

典型案例
剖析服务一体化架构降级案例
分享一个理论的优化案例:一家头部物流公司的实时数仓架构的降级历程。物流公司对实时的决策和实时的剖析有很强的需要,也会有定期营销大促的流量顶峰,零碎负载的稳定比拟大,同时还须要间接反对很多 2c 场景,对服务的响应能力要求很高。在架构降级之前,该企业多采纳一些传统的关系型数据库架构,来撑持在线业务的实时查问、实时监控,包含刷新每个包裹的物流状态等场景。

但这样的架构存在实时性有余的问题。订单的数据更新效率低,更新链路也很长,无奈满足实时监控的需要,也会升高物流的配送效率。同时多个指标之间往往须要很简单的关联计算,查问效率比较慢,无奈满足业务实时决策的需要。

架构的另一个痛点就是稳定性有余,多个业务高并发查问的时候,整体的提早会减少,影响业务的稳定性。双 11 期间须要承当的流量会数倍于日常的流量,原有的零碎也无奈接受忽然的流量减少,会导致须要很多额定的人工运维。

因而咱们为用户做了一次实时数仓架构的降级革新,通过 Flink+Hologres 代替原有的数仓架构。对于高频拜访的服务性数据,应用 Flink 从 DataHub 中生产数据,把计算结果间接存储在 Hologres 中;对于一些简单查问的剖析型数据,通过 DataWorks 读取上游的 RDS binlog,在 Hologres 中进行 ODS\DWD\DWS 等数据的分层建设,从而将最终的汇总数据对接下层利用,实现了高并发疾速查问。

该计划采纳了剖析服务一体化的混合模式,既施展了 Flink 流计算能力进行业务的预加工,也充分利用了 Hologres 弱小的简单多维查问能力,胜利代替了传统的 OLAP 零碎、RDS 零碎等数据库软件,简化了数据的架构。

降级之后,零碎的稳定性失去极大的改善,无论是实时的数据写入还是数据的读取,都体现了极强的稳定性。整个双 11 期间真正做到了零故障率,满足了实时的业务需要,撑持了比方实时的揽件、库内的操作直达调拨等实时大屏,为经营提供了强有力的实时数据撑持。

整体的实效性也失去了显著晋升,为用户带来了良好的物流体验,晋升了公司的服务水平。

此外,针对双 11 的流量高峰期比日常流量高出上千倍,通过 Hologres 云原生的弹性能力,实现了资源的动静扩缩容,满足了对资源的不同需要,也升高了运维的老本。

image.png

更多 阿里云大数据产品 >>

MaxCompute 二维码拼图.png

原文链接:http://click.aliyun.com/m/100…

本文为阿里云原创内容,未经容许不得转载。

正文完
 0