关于数据仓库:数仓架构的持续演进与发展-云原生湖仓一体离线实时一体SaaS模式

40次阅读

共计 4341 个字符,预计需要花费 11 分钟才能阅读完成。

简介:数据仓库概念从 1990 年提出,通过了四个次要阶段。从最后的数据库演进到数据仓库,到 MPP 架构,到大数据时代的数据仓库,再到明天的云原生的数据仓库。在一直的演进过程中,数据仓库面临着不同的挑战。

作者 张良模 阿里云智能资深产品专家

谈到数据仓库,咱们往往容易疏忽“数据”两个字,阿里云有着很多业务场景和业务体系,在这些数据利用之下咱们如何治理数据的呢?数据仓库是如何帮到咱们以及它本身是如何演进的?

数据仓库概念从 1990 年提出,通过了四个次要阶段。从最后的数据库演进到数据仓库,到 MPP 架构,到大数据时代的数据仓库,再到明天的云原生的数据仓库。在一直的演进过程中,数据仓库面临着不同的挑战。

第一 启动老本高、建设周期长,价值难以疾速验证

对于数仓的建设人员,面临的挑战是业务人员心愿数仓建设周期能更短。而传统数据仓库往往要面临从洽购服务器,建设物理仓库到逻辑仓库等一个较长的周期,所以数据仓库面临的第一个挑战就是怎么去升高建设周期。

第二 如何解决多样数据,拥抱新技术,充沛开掘数据价值

随着大数据的到来,传统数据仓库治理的大多是结构化数据。如何对半结构化的数据进行对立全面的治理就成为传统数据仓库面临的第二个挑战。

第三 难以共享企业数据资产、数据翻新老本高

数据仓库更加强调治理和平安,在强调平安的状况下如何在组织里以及整个生态上下游中更好的共享和替换数据,成为了新的挑战。例如在企业的部门间或业务间仍然存在为数不少的数据孤岛,数据共享老本高,不足企业级别的对立的数据获取进口,由此导致数据生产方获取数据艰难,难于自助剖析,重大依赖 IT 部门反对来满足企业更宽泛的数据需要。

第四 平台架构简单、经营老本高

随着数据处理品种的多样化和数据量的一直变大,不同的技术被叠加在一起从而使得数据仓库架构变得越发简单。同一企业里往往会同时存在各种技术类型的数据仓库。所以如何简化数据仓库的架构也是面临的一个重要挑战。个别须要投入业余团队负责管理简单的数据平台,同时对资源利用率不高的状况进行治理和治理。

第五 满足业务须要的扩展性、弹性、灵活性

业务疾速倒退的企业,常常会有大促流动,补数据,解决非常规事件的需要,如何疾速扩大数仓性能,进步业务峰谷的响应时效,也带来很多挑战。

对于传统数据仓库面临的这些挑战,在技术和业务的驱动下新型数据仓库如何应答呢?这里能够看到六个次要的驱动力。

第一 咱们心愿有一个对立的数据平台,能去连贯,去存储和解决多种数据。

第二 实时化,企业基于数据驱动能实时对业务作出撑持和决策的信息,这里有更高时效性的要求。

第三 数据量变得十分宏大,在海量数据中如何找到想要的数据,就须要有一张地图,要对数据进行治理和治理。

第四 传统数据仓库中,数据的存储采纳集中的形式,肯定要把数据集中在同一个存储中。而在新的业务驱动下,须要去连贯数据而不是对立存储在一起。

第五 数据仓库之上如何反对更多智能化的利用,信息化的业务以及业务的信息化等关系。这就是数仓智能化和智能化数仓的需要驱动力。

第六 数据畛域的不同角色对数据平台有着不同需要。例如数据工程师,数据分析人员,数据科学家等,他们对数据平台的响应工夫,处理速度,数据量,开发语言等有着不同的需要。所以更多的做好剖析服务,成为数据管理平台第六个驱动力。

据仓库在一直地演进过程中,从 30 年前的概念来看曾经注入了更多新的外延。对于新的外延,咱们能够从数据仓库的基础架构,数据架构,数据分析以及服务模型四个角度来显著看到云原生,湖仓一体,离线实时一体化、服务模型的 SAAS 化的演进趋势。

云原生 — 数仓基础架构的演进方向

云原生是数仓基础架构的一个根本的演进方向。传统数据仓库是基于物理服务器或云上托管服务器的模式。而云原生的状况下能够更多去利用云的根底服务,包含存储服务,网络服务以及更多的监控服务。这就意味着在云上用原生服务能够取得云的自服务、弹性等能力,云数仓就能够更好的去集成更多的云上服务,包含如何把日志数据从各种数据源抽取到数据仓库中,也包含如何进行全链路的数据管理和机器学习等。所以云原生往往蕴含了如何构建和如何与云上服务原生的集成。

如图,云原生的状况下在底层充分利用了云的弹性计算,存储以及平安能力。在此之上能够看到咱们把所有云的复杂性都屏蔽掉,作为数据平台的用户,只需开明服务,通过 web 形式创立我的项目空间,五分钟开明一个数据仓库进行数据仓库前面模型的开发。大大简化了服务交付的周期以及数据仓库整个底层架构,技术架构构建过程。另一方面是云原生数仓的扩展性,不论你提交了一个只须要 1CU 的作业还是提交一个可能须要 10000CU 的作业,平台都会按你的须要调度资源来进行数据处理。所以云原生又给咱们带来近乎有限的扩展性。

湖仓一体 — 数仓数据架构的演进方向

讲到湖仓一体,先来看湖仓一体背地的起因。不得不说到明天为止数据仓库依然是企业治理数据最优的解决方案。各个企业大都有本人的数据仓库,只不过可能是基于不同的技术状态构建的数据仓库。在解决策略,对语义的反对上,对场景的优化上以及工程教训上,数据仓库是目前积淀下来的一个最优的计划。在此之上,企业数据量越来越大,须要更灵便更麻利的数据摸索能力。同时,对未知数据存在先存储下来再进一步摸索的诉求。由此,企业在架构上须要交融数据分析的最优化和可摸索两个方面的劣势,从解决策略到语义反对,以及应用案例上,数据仓库和数据湖别离带给企业不同的劣势。数据仓库在易治理,数据品质高,而数据湖在可摸索,灵活性强方面为咱们带来劣势。咱们要思考和探讨如何将两种形式联合起来共用,这就是提出“湖仓一体”的背景。

在 MaxCompute 以数据仓库为主的场景下,将数据仓库对数据管理的最优工程教训,治理教训和数据湖对数据管理的灵活性,数据处理的灵活性更好的联合在一起,2019 年咱们在寰球率先提出了“湖仓一体”的全新数据管理架构。基于 MaxCompute 数据仓库来提供安全可靠的,结构化的数据管理形式,以及在此之上由 DataWorks 提供数据血统,数据地图和数据治理等能力。这些能力如何延长到数据湖中?明天咱们可见的数据湖包含基于云上的对象存储 OSS,也蕴含企业中基于 Hadoop HDFS 的数据湖,对于这两类数据湖如何基于已有的灵活性可能取得更容易摸索能力,能晋升它们得数据处理性能,治理能力和安全性?

咱们所做的就是把数据仓库和数据湖两者买通,通过数据湖构建 DLF,发现数据湖的元数据,进行结构化的对立治理,交融湖的灵便和便捷劣势。这就是以仓为核心的湖仓一体新型数据管理的架构,数据仓库在企业数据的治理形式上往前又推动了一步。

离线实时一体 — 数仓数据分析的演进方向

在企业的数据仓库中,通过 SLS、Kafka 等订阅的形式进行数据采集,通常有三种门路。第一种可能是将一部分数据归档在数据仓库中,而后进行全量的剖析。第二种是进行实时的查问剖析,比方风控场景下查一个电话号码过来三年的通话记录,要马上查出来,就须要进行实时的连贯剖析。第三种是进行一些关联的多维度查问,对这些实时数据等进行关联的根底上,前面再来进行批量的解决,实时处理以及点查。实时数据的获取,计算以及利用这三方面,形成了整个数仓由离线向实时倒退的三个外围含意。这里最外围的就是计算。计算的实质无外乎两个,一个是被动计算,另一个是被动计算。离线计算往往是被动计算,须要数仓工程师通过定义工作来调度作业,能力计算出新的后果。在实时离线一体化中,除了被动计算,还要有被动计算能力。当数据流入后,不做人工干预,任何作业的插入和重启都能主动算出新的后果或两头后果。参加实时计算就最大水平的减少了被动计算的过程,而被动的后果带给咱们的益处就是无需从新调度任何作业就能拿到想要的后果数据。

在离线和实时一体的状况下尽管能够解决业务上的一些问题,但架构会非常复杂。所以阿里云提出离线实时一体化的数仓架构。简化是说咱们只须要外围的几个产品,就能够实现离线和实时一体化的架构。数据源包含了交易数据以及各个服务器生成的人的行为数据和物的行为数据,通过日志服务,定期归档到 Hologres, 之后,实时数仓加上流计算来进行实时计算,而后在上面是全量的数仓,整个实现了被动计算、被动计算和数据的实时获取。后果数据能够不必做任何搬迁,间接通过 Hologres 来做实时剖析。将实时的数据获取,实时的数据计算和实时的数据分析服务三者买通为一体,架构上做了最大水平的简化,这就是明天所说的离线实时一体化的云数据仓库。

SaaS 模式 — 数仓服务模式的演进方向

基于数仓基础架构、数据管理架构、数据分析架构的演进,这些产品的服务是如何被交付的呢?那就是通过 SaaS 化的形式向客户来交付数据仓库,能够最简化的去应用数据仓库的服务。

数据仓库的形成有几种形式,第一种是说基于物理服务器自建数据仓库,这是大家最为相熟的形式。第二种是在云上基于 Hadoop,也能够基于各种 MPP 的数据库去构建和搭建半托管的云上数据仓库。第三种和第四种就属于比拟深的云原生的模式,第三种是典型 Snowflake 的形式,这种形式下云根底服务其实并不会裸露给数据仓库的管理者,所以咱们把它叫做嵌入式的,将 IaaS 这一层嵌入到 PaaS 层中,但最终数据仓库是通过 SaaS 的齐全 web 的形式裸露进去的。2021 年寰球 Forrester 评测中有 13 家厂商参加了评估,其中以 SaaS 模式交付数据仓库服务的只有三家,别离是谷歌的 BigQuery,Snowflake 和阿里云 MaxCompute。

能够看到通过云计算的数据仓库服务,从自建到云原生,帮咱们最大化的升高了数据仓库的治理复杂度,整个架构少了很多层,无需治理集群和软件,通过服务化的形式达到免运维,将底层的所有这些需治理的内容去掉,后盾降级是由云厂商来提供服务的,只须要治理本人的数据和数据模型,通过 web 形式来应用数据仓库服务。在数据仓库里存储的数据与云存储一样,按存储量付费。计算也是一样的,不计算不花钱。充分体现了 SaaS 化的劣势。同时,在匹配业务需要上具备十分强的弹性能力,咱们有很多客户日常只须要一万核的算力,在双十一当天须要三万核的算力。在这种 SaaS 模式的服务下,用户在齐全无感知的状况下咱们就能够保障充分的弹性能力去满足数据仓库的各种工作需要了。

综上,数据仓库从 1990 年的数据库演进到数据仓库,到 MPP 架构,到大数据时代的数据仓库,再到明天的云原生的数据仓库的一路演进,基础架构的云原生,数据架构的湖仓一体,数据分析的离线实时一体化以及数仓服务模式的 SaaS 化,是最为次要的四个演进的方向和特色。阿里云正在通过全新数据仓库架构给企业带来具备更优体验的数据管理的形式。

原文链接

本文为阿里云原创内容,未经容许不得转载。

正文完
 0