关于华为云:跨湖跨仓场景下如何实现海量数据分钟级分析

摘要：华为开发者大会2021（Cloud）大会期间，华为云FusionInsight MRS云原生数据湖HetuEngine架构师武文博，分享了“跨湖跨仓场景下如何实现海量数据分钟级剖析”主题。

本文分享自华为云社区《华为云FusionInsight MRS跨湖跨仓场景下如何实现海量数据分钟级剖析》，原文作者：沙漏。

华为开发者大会2021（Cloud）于2021年4月24日-26日在深圳胜利举办。本届大会以#每一个开发者都了不起#为主题，为泛滥开发者带来一场ICT方面的技术盛宴。

大会期间，由华为技术专家天团打造的《名师大讲堂》系列专题演讲，围绕云原生、大数据、人工智能等话题，探讨技术创新带来的价值，分享翻新实际。其中，华为云FusionInsight MRS云原生数据湖HetuEngine架构师武文博，分享了“跨湖跨仓场景下如何实现海量数据分钟级剖析”主题。

华为云FusionInsight MRS云原生数据湖HetuEngine架构师武文博演讲

传统大数据平台交融剖析存在数据墙、数据难买通、数据协同慢三大问题

随着大数据技术的利用和倒退，数据品种越来越多，散布越来越广，查问场景也越来越简单，尤其在新兴业务中，须要在一个平台上应用离线剖析、实时剖析、图剖析、文本剖析、交互式查问等多种引擎，多元异构的数据交融能力盘活数据，通过数据挖掘开发数据价值，施展数据作为生产因素的作用。而传统大数据平台在应答数据交融剖析时逐步露出疲态，存在如下问题：

多数据源间存在数据墙：Hive、HBase、MPPDB、Oracle….数据组件泛滥，组件间造成“数据墙”；为了应答不同场景的需要，数据反复存储到多个数据组件：Hive（历史数据），HBase（原始数据），MPPDB（专题数据），治理简单，消耗存储空间；

多核心数据难以买通：各类剖析利用只能基于本地数据；用外核心数据做碰撞剖析须要先搬迁到本地，操作简单，效率低；异地数据加工须要在当地部署和保护加工平台，架构简单；

多数据中心难以造成合力：数据集中在主核心，造成主核心负载畸高，分中心却闲暇重大；紧急任务须要迅速解决，却因为分中心数据还未同步，无奈剖析；多数据中心和多集群的计算和扩大能力远远强于单个核心，但因为跨数据中心拜访技术根本处于空白状态，业务只能依附单核心撑持。

简化用数，HetuEngine对立接口，跨湖跨仓跨云协同剖析从数天降至分钟级

为了让数据应用更简略，跨湖协同更容易，解决上述三大问题，华为推出了、“HetuEngine”，于2019年11月公布，2020年6月正式开源（开源名称openLooKeng）。HetuEngine是对立高效的数据虚拟化引擎，与大数据生态无缝交融，实现海量数据秒级查问；业界独创多源异构协同，实现一站式SQL交融剖析。

HetuEngine具备如下个性：

• 高性能交互式查问：传统大数据通过Hive引擎构建即席查问工作，查问工夫长， HetuEngine通过启发式索引和执行打算Cache，实现秒级查问响应；

• 跨湖跨仓跨云交融：传统数据分析需先对立数据格式，HetuEngine可实现不同数据格式间的join，缩小数据搬迁，较传统计划提效30%；传统DC剖析要建手工摆渡数据，HetuEngine可通过DC Connector进行连贯，数据全局可视，协同耗时从数天缩短至分钟级；

• 多引擎交融：传统大数据在进行多引擎组件开发时，需波及多组件定制开发，HetuEngine可对立SQL接口拜访大数据，升高用数门槛，开发提效2-10倍。

目前，华为云FusionInsight MRS云原生数据湖为政企提供湖仓一体的解决方案，一个架构可构建三种数据湖：离线数据湖、实时数据湖、逻辑数据湖。其中逻辑数据湖通过HetuEngine提供跨湖、跨仓、跨云对立拜访，缩小数据搬迁，数据高效流动，全域数据分钟级协同剖析，业务上线效率晋升10倍，由周级缩短至天级。

HetuEngine已在各行各业大规模应用，上面一起来看HetuEngine在金融畛域的典型场景实际。

工商银行基于HetuEngine实现即时BI，减速金融数据湖的灵便数据摸索

工行金融数据湖承载总行及分行全量原始数据，供全行数据分析师进行数据摸索剖析。目前日查问量5000条，查问数据均匀10亿行，最大可达百亿行，随同数字化转型进入深水区，多样性业务诉求对数据交融剖析提出了更高的要求。

在某些场景中，金融业务须要在数据湖内先应用批处理技术对原始数据加工成专题数据，而后跨集群搬移数据集市，再从数据集市上做BI剖析。传统大数据平台中，SAS等工具通过Hive SQL拜访数据湖数据性能差，均匀响应工夫5分钟~2小时，并发能力有余10，且湖仓数据割裂，将数据加工后加载到OLAP集市，数据链路长，剖析效率和开发效率都很低。

该行通过华为云FusionInsight MRS云原生数据湖提供的HetuEngine，解决了数据湖与数仓间的数据协同剖析问题，防止了不必要的ETL。

通过HetuEngine数据虚拟化实现湖仓互联互通协同剖析；
防止不必要的ETL流程，缩小数据搬迁。

通过引入HetuEngine数据虚拟化引擎，在数据湖查问剖析方面该行晋升了并发能力，仅1/5的资源即可反对45并发，峰值并发最大达200QPS，均匀时延优化到8秒；在湖仓协同剖析方面，通过HetuEngine买通数据湖与数仓间的数据壁垒，湖仓协同剖析性能从分钟级晋升至秒级，同时缩小80%的零碎间数据搬迁同步，大大晋升数据治理效率。

结语

HetuEngine作为对立高效的数据虚拟化引擎，买通了多数据源间的数据墙，实现高性能跨湖跨仓跨云数据交融剖析，同时，HetuEngine提供对立拜访入口，屏蔽了传统简单的拜访接口，并对立应用 SQL 接口，升高大数据应用门槛，简化用数！

华为云FusionInsight MRS云原生数据湖还将继续翻新，做大数字世界黑土地，携手800+ISV为客户提供继续演进的湖仓一体解决方案，能够在一个架构上实现离线数据湖、实时数据湖、逻辑数据湖，在千行百业构筑“一企一湖，一城一湖”。

点击关注，第一工夫理解华为云陈腐技术~

关于华为云:跨湖跨仓场景下如何实现海量数据分钟级分析

传统大数据平台交融剖析存在数据墙、数据难买通、数据协同慢三大问题

简化用数，HetuEngine对立接口，跨湖跨仓跨云协同剖析从数天降至分钟级

工商银行基于HetuEngine实现即时BI，减速金融数据湖的灵便数据摸索

结语

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于华为云:跨湖跨仓场景下如何实现海量数据分钟级分析

传统大数据平台交融剖析存在数据墙、数据难买通、数据协同慢三大问题

简化用数，HetuEngine对立接口，跨湖跨仓跨云协同剖析从数天降至分钟级

工商银行基于HetuEngine实现即时BI，减速金融数据湖的灵便数据摸索

结语

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复