关于程序员:基于华为云原生数据湖MRS-HetuEgine的数据虚拟化实践

2次阅读

共计 2860 个字符,预计需要花费 8 分钟才能阅读完成。

【摘要】大数据时代的技术特点导致一个企业的数据扩散存储在不同组件甚至不同地区的不同组件之中,为企业数据的高效应用带来挑战。数据虚拟化技术使利用在不关怀数据源的数据格式及物理存储地位的状况下以一种对立的形式获取和应用整个组织中所有的数据。华为云原生数据湖 MRS HetuEngine 就是一款优良的数据虚拟化引擎,并在泛滥企业的数字化转型过程中落地实际。

数据虚拟化是指一种数据管理形式,容许利用在不关怀数据源的数据格式及物理存储地位的状况下以一种对立的形式获取和应用整个组织中所有的数据。与数据虚拟化形式对应的一种形式是传统的 ETL 形式,数据通过抽取、转换和装载的过程,将不同零碎的数据收集到一个对立的物理零碎中,并通过标准化解决进行格局的对立。数据虚拟化的特点是不扭转数据存储地位,实时拜访。依据 Gartner 公布的数据管理技术成熟度曲线,数据虚拟化技术曾经进入了生产成熟期,相干实践和技术也曾经成熟,如果企业正在受困于各零碎或者各部门数据无奈高效买通的问题,能够思考采纳数据虚拟化技术。

晚期的一种数据虚拟化实际是数据库联邦,在不同的数据库之间建设 JDBC/ODBC 连贯的形式,以规范 SQL 的形式跨数据库进行数据实时拜访。这种形式在传统数据库模式下肯定水平上解决了跨数据源实时数据拜访的问题。然而在大数据时代,数据的存储和拜访形式曾经齐全不同,每种数据处理组件只解决一个特定的场景问题,具备不同的数据存储形式、组织形式和拜访形式。如 Hdoop 用于解决大规模数据的批量计算,Hbase 用于海量数据的实时准确检索,ElasticSearch 用于海量数据的综合检索,还有 MPP 数据库、图数据库、内存数据库、时序数据库等等,百花齐放,百家争鸣,独特造成了大数据时代的数据处理技术栈,解决各个场景下的大规模数据处理问题。在理论的利用中,为了满足业务不同维度的需要,往往在同一个业务中同时应用了不同的解决组件,甚至是散布在不同地区的不同数据处理组件,造成了业务复杂度高,数据冗余,拜访效率低等问题。

大数据时代的数据虚拟化技术就是要解决这种跨源跨域场景下的数据高效拜访问题,以一种对立的接口,靠近原生零碎的性能,跨地区的形式进行数据拜访。而要满足上述要求,一个数据虚拟化产品须要具备上面的四个性能:

  1. 对立元数据管理。具备全局数据的对立视图,包含数据承载的组件、数据的 Schema、数据存储的格局、存储地位等。
  2. 形象数据拜访层。提供数据拜访的形象层,屏蔽不同数据源的接口差别,在拜访层以一种对立的接口面向应用层。
  3. 对立的平安管控。全局对立平安管控策略,所有数据的拜访在平安管控的框架下进行,防止数据越权拜访。
  4. 多源后果汇合并。来自不同集群,不同组件的后果数据能够关联、合并,以一个残缺的后果集返回给应用层。

华为 MRS 云原生数据湖平台的 HetuEngine 就是一款解决大数据时代跨源跨域问题的数据虚拟化引擎。如下图是 MRS 云原生数据湖平台基于 HetuEngine 构建的逻辑数据湖平台架构。HetuEngine 能够跨 Hadoop 平台、MPP 数据库、数据集市(包含 Hbase、ElasticSearch、Clickhouse 等)进行跨源拜访,并提供对立的 SQL 接口供下层利用进行数据拜访。HetuEngine 还反对跨集群数据拜访,实现高性能的跨数据湖、数据仓库、数据集市的剖析查问。实用多个数据湖或者数据平台联结剖析,反对用户间资源隔离,反对全局数据权限治理。

当初,HetuEngine 曾经帮忙泛滥政企客户解决了在大数据场景下面临的用数难,取数难的问题。某大型国企就利用了 HetuEngine 的跨域剖析能力解决了困扰其很长时间的全域数据实时拜访的问题。

该大型国企有泛滥上司省公司,散布在全国各地,每个省公司都建设有本人的数据湖平台,用于撑持省公司外部的数字业务。各省公司每天要将本人的数据上报给集团公司,集团公司再对全国数据进行对立汇总加工解决,用于撑持团体层面的业务决策。这种形式面临以下几个问题:(1)数据上报不残缺。因为带宽限度,只能上报局部后果数据,无奈将全副的明细数据上报,局部须要明细数据的业务无奈在团体层面发展。(2)数据上报提早。子公司将数据加工后,分批上报集团公司,数据提早在小时级别,无奈撑持团体实时业务的发展。(3)资源投入太大。随着业务的倒退,团体须要的数据越来越多,资源池原来越大,投入和产出无奈匹配。(4)数据需要响应不及时。新的数据需要只能通过对分公司提数据需要,从新开发数据流程上报的形式满足,效率太低,无奈撑持业务的时效性需要。

如上图所示,在旧模式下,所有的数据只能通过定时上报的形式收集到团体集中化大数据平台,再进行剖析,供下层业务应用。引入 HetuEngine 后,上报的数据只是每天固定模型加工的数据,明细数据和长期汇总数据均能够通过 HetuEngine 进行实时的查问。通过 HetuEngine 不仅实现了高效的实时数据查问,还能够通过 HetuEngine 进行跨省公司的数据关联剖析,突破了省公司之间的数据墙,大大提高了跨域数据分析的效率。

HetuEgine 通过本人的跨域查问引擎,能够将一个简单的跨域查问工作依据数据所在的地位将查问下发到数据所在的集群执行,充分利用边缘集群的算力,进步数据分析的效率和整体的资源利用率。如下图的一个场景,要统计年龄为 35 岁,在两个省同时开户的用户。能够通过一个 SQL 同时查问两个省公司的数据。HetuEngine 将这个 SQL 下推到两个省公司集群执行,并将执行后果返回给集团公司进行对立汇总,间接向业务层返回最终的汇总后果。整个过程都是主动实时的进行,并且充分利用了边缘集群的算力,集团公司只须要耗费大量的带宽和算力就实现了整个计算过程。

HetuEngine 在跨域场景下也充分考虑了整个计算过程的可靠性和安全性。数据拜访遵循对立的平安管控模型,对近程数据拜访进行细粒度的管控。数据传输过程采纳加密传输,保障数据传输过程中的平安。思考到跨地区的查问通常是传输带宽受限的场景,HetuEngine 反对流量管控,避免因为查问后果集过大导致占满传输带宽,影响其余业务。此外,HetuEngine 还综合采纳了抗网络抖动、断点续传、压缩传输、级联查问等伎俩进步跨域查问的稳定性和效率。

最终,借助 HetuEngine 提供的数据虚拟化能力,该集团公司打造了一套高效的全域数据对立查问剖析平台。首先,实现了全域数据在团体层面真正的对立,利用 HetuEngine 可随时拜访团体所有省公司的数据。其次,缩小了集团公司集群的压力,将大量的数据分析工作下发给省公司集群实现,充分利用省公司边缘集群的算力。而后,进步端到端的数据拜访时延,数据由之前的小时级的提早到当初能够秒级查问省公司集群数据。最初,借助 HetuEgine 跨源跨域查问能力,能够间接将散布在不同省不同存储组件中的数据在 HetuEngine 中进行关联剖析,突破了数据之间的隔离,带来了很多新的数据利用场景,进一步开掘了数据的价值。

本文由华为云公布

正文完
 0