共计 2510 个字符,预计需要花费 7 分钟才能阅读完成。
摘要: 华为开发者大会 2021(Cloud)大会期间,华为云 FusionInsight MRS 云原生数据湖 HetuEngine 架构师武文博,分享了“跨湖跨仓场景下如何实现海量数据分钟级剖析”主题。
本文分享自华为云社区《华为云 FusionInsight MRS 跨湖跨仓场景下如何实现海量数据分钟级剖析》,原文作者:沙漏。
华为开发者大会 2021(Cloud)于 2021 年 4 月 24 日 -26 日在深圳胜利举办。本届大会以 #每一个开发者都了不起# 为主题,为泛滥开发者带来一场 ICT 方面的技术盛宴。
大会期间,由华为技术专家天团打造的《名师大讲堂》系列专题演讲,围绕云原生、大数据、人工智能等话题,探讨技术创新带来的价值,分享翻新实际。其中,华为云 FusionInsight MRS 云原生数据湖 HetuEngine 架构师武文博,分享了“跨湖跨仓场景下如何实现海量数据分钟级剖析”主题。
华为云 FusionInsight MRS 云原生数据湖 HetuEngine 架构师武文博演讲
传统大数据平台交融剖析存在数据墙、数据难买通、数据协同慢三大问题
随着大数据技术的利用和倒退,数据品种越来越多,散布越来越广,查问场景也越来越简单,尤其在新兴业务中,须要在一个平台上应用离线剖析、实时剖析、图剖析、文本剖析、交互式查问等多种引擎,多元异构的数据交融能力盘活数据,通过数据挖掘开发数据价值,施展数据作为生产因素的作用。而传统大数据平台在应答数据交融剖析时逐步露出疲态,存在如下问题:
多数据源间存在数据墙:Hive、HBase、MPPDB、Oracle…. 数据组件泛滥,组件间造成“数据墙”;为了应答不同场景的需要,数据反复存储到多个数据组件:Hive(历史数据),HBase(原始数据),MPPDB(专题数据),治理简单,消耗存储空间;
多核心数据难以买通: 各类剖析利用只能基于本地数据;用外核心数据做碰撞剖析须要先搬迁到本地,操作简单,效率低;异地数据加工须要在当地部署和保护加工平台,架构简单;
多数据中心难以造成合力: 数据集中在主核心,造成主核心负载畸高,分中心却闲暇重大;紧急任务须要迅速解决,却因为分中心数据还未同步,无奈剖析;多数据中心和多集群的计算和扩大能力远远强于单个核心,但因为跨数据中心拜访技术根本处于空白状态,业务只能依附单核心撑持。
简化用数,HetuEngine 对立接口,跨湖跨仓跨云协同剖析从数天降至分钟级
为了让数据应用更简略,跨湖协同更容易,解决上述三大问题,华为推出了、“HetuEngine”,于 2019 年 11 月公布,2020 年 6 月正式开源(开源名称 openLooKeng)。HetuEngine 是对立高效的数据虚拟化引擎,与大数据生态无缝交融,实现海量数据秒级查问;业界独创多源异构协同,实现一站式 SQL 交融剖析。
HetuEngine 具备如下个性:
• 高性能交互式查问: 传统大数据通过 Hive 引擎构建即席查问工作,查问工夫长,HetuEngine 通过启发式索引和执行打算 Cache,实现秒级查问响应;
• 跨湖跨仓跨云交融: 传统数据分析需先对立数据格式,HetuEngine 可实现不同数据格式间的 join,缩小数据搬迁,较传统计划提效 30%;传统 DC 剖析要建手工摆渡数据,HetuEngine 可通过 DC Connector 进行连贯,数据全局可视,协同耗时从数天缩短至分钟级;
• 多引擎交融: 传统大数据在进行多引擎组件开发时,需波及多组件定制开发,HetuEngine 可对立 SQL 接口拜访大数据,升高用数门槛,开发提效 2 -10 倍。
目前,华为云 FusionInsight MRS 云原生数据湖为政企提供湖仓一体的解决方案,一个架构可构建三种数据湖:离线数据湖、实时数据湖、逻辑数据湖。其中逻辑数据湖通过 HetuEngine 提供跨湖、跨仓、跨云对立拜访,缩小数据搬迁,数据高效流动,全域数据分钟级协同剖析,业务上线效率晋升 10 倍,由周级缩短至天级。
HetuEngine 已在各行各业大规模应用,上面一起来看 HetuEngine 在金融畛域的典型场景实际。
工商银行基于 HetuEngine 实现即时 BI,减速金融数据湖的灵便数据摸索
工行金融数据湖承载总行及分行全量原始数据,供全行数据分析师进行数据摸索剖析。目前日查问量 5000 条,查问数据均匀 10 亿行,最大可达百亿行,随同数字化转型进入深水区,多样性业务诉求对数据交融剖析提出了更高的要求。
在某些场景中,金融业务须要在数据湖内先应用批处理技术对原始数据加工成专题数据,而后跨集群搬移数据集市,再从数据集市上做 BI 剖析。传统大数据平台中,SAS 等工具通过 Hive SQL 拜访数据湖数据性能差,均匀响应工夫 5 分钟~2 小时,并发能力有余 10,且湖仓数据割裂,将数据加工后加载到 OLAP 集市,数据链路长,剖析效率和开发效率都很低。
该行通过华为云 FusionInsight MRS 云原生数据湖提供的 HetuEngine,解决了数据湖与数仓间的数据协同剖析问题,防止了不必要的 ETL。
- 通过 HetuEngine 数据虚拟化实现湖仓互联互通协同剖析;
- 防止不必要的 ETL 流程,缩小数据搬迁。
通过引入 HetuEngine 数据虚拟化引擎,在数据湖查问剖析方面该行晋升了并发能力,仅 1 / 5 的资源即可反对 45 并发,峰值并发最大达 200QPS,均匀时延优化到 8 秒;在湖仓协同剖析方面,通过 HetuEngine 买通数据湖与数仓间的数据壁垒,湖仓协同剖析性能从分钟级晋升至秒级,同时缩小 80% 的零碎间数据搬迁同步,大大晋升数据治理效率。
结语
HetuEngine 作为对立高效的数据虚拟化引擎,买通了多数据源间的数据墙,实现高性能跨湖跨仓跨云数据交融剖析,同时,HetuEngine 提供对立拜访入口,屏蔽了传统简单的拜访接口,并对立应用 SQL 接口,升高大数据应用门槛,简化用数!
华为云 FusionInsight MRS 云原生数据湖还将继续翻新,做大数字世界黑土地,携手 800+ISV 为客户提供继续演进的湖仓一体解决方案,能够在一个架构上实现离线数据湖、实时数据湖、逻辑数据湖,在千行百业构筑“一企一湖,一城一湖”。
点击关注,第一工夫理解华为云陈腐技术~