关于华为云:解密华为云FusionInsight-MRS新特性一架构三湖

摘要：华为云平安网关产品总监郭冕在“华为云TechWave云原生2.0专题日”上发表《华为云FusionInsight MRS，一个架构实现三种数据湖》的主题演讲，分享了智能数据时代的数据湖发展趋势、MRS云原生数据湖技术创新实现一个架构构建离线、实时、逻辑三种数据湖，以及业务实际中的胜利案例等。

本文分享自华为云社区《华为云FusionInsight MRS云原生数据湖，一架构三湖，解密华为云FusionInsight MRS组件新个性》，原文作者： IT老磨。

5月20日，华为云平安网关产品总监郭冕在“华为云TechWave云原生2.0专题日”上发表《华为云FusionInsight MRS，一个架构实现三种数据湖》的主题演讲，分享了智能数据时代的数据湖发展趋势、MRS云原生数据湖技术创新实现一个架构构建离线、实时、逻辑三种数据湖，以及业务实际中的胜利案例等。

进入智能数据时代，业界建设数据湖的十大共识

通过数十年的疾速倒退，大数据处理技术已日渐成熟，围绕数据仓库、数据湖衍生技术多如繁星，业界在多年的摸索之中，也对将来数据湖状态有了十个重要共识，湖仓一体成为智能数据湖的首选架构。为应答智能数据时代对大数据技术提出的新挑战，华为云FusionInsight MRS云原生数据湖进行全面降级，引入了Hudi、ClickHouse热门组件，增强了自研的HetuEngine虚拟化引擎，同时新增IoTDB时序解决的能力，拓展数据使能利用的边界。

华为云FusionInsight MRS云原生数据湖

华为云FusionInsight MRS云原生数据湖为政企客户提供湖仓一体、云原生的数据湖解决方案，构建一个架构可继续演进的离线、实时、逻辑三种数据湖，撑持政企客户全量数据的实时剖析、离线剖析、交互查问、实时检索、多模剖析、数据仓库、数据接入和治理等大数据利用场景，使政企客户高效用数、简化用数，助力政企客户实现一企一湖、一城一湖，业务洞见更准，价值兑现更快。

离线数据湖：提供交互式、BI、AI等多个计算引擎，采纳OBS实现存算拆散，使得云原生数据湖的架构更灵便。反对单集群2万+节点的超大规模，通过集群联邦，可反对10万+规模。反对滚动降级，保障要害业务降级不中断。
实时数据湖：通过Hudi反对ACID数据实时增量入湖、ClickHouse毫秒级OLAP剖析等构建实时更新解决能力，使得供数时效从T+1到T+0。
逻辑数据湖：HetuEngine提供跨湖、跨仓、跨云的协同剖析，实现湖仓一体，缩小80%数据搬迁，协同剖析提效50倍。

一架构三湖新个性，笼罩数据分析全流程

Hudi：增量实时入湖，实现数据入湖时效快、开发易、性能高、资源利用率更高

传统数据湖不反对数据更新，导致数据采纳T+1离线解决模式，齐全无奈满足灵便多变的业务诉求，针对数据时效性问题，华为云FusionInsight MRS云原生数据湖引入Hudi。

Hudi能够反对数据更新、数据删除，还有ACID保障，保证数据实时入湖更新操作。它提供多种视图，包含读优化视图、增量视图、实时视图，能够对不同的剖析利用提供不同的视图，基于这些技术可轻松实现增量表、拉链表，镜像表这些数据存储模型。引入Hudi后，带来四大显著效果：

数据时效更快：在业务零碎，通过CDC的零碎实现分钟级数据入湖，数据时效性从T+1到T+0。
解决性能更高：面对数据有删除、更新的场景下，传统采纳Hive更新形式，仅解决一行数据也可能须要对整个表，至多要对整个分区进行解决，引入Hudi后处理效率晋升10倍+。
开发更简略：对于开发人员来说，传统数据入湖不反对更新或者删除，开发人员需新建长期表，将数据处理后再进行笼罩，对同一个工作可能须要写很多代码去实现，有了Hudi的加持之后，做一个数据更新的操作就跟应用数据库一样简略，单条语句即可实现。
资源利用率更高：传统T+1的模式并不是24小时跑工作，而是在早晨进行批量加工，早上出报表，整个处理过程中，计算高峰期仅早晨跑批的工夫，而资源却是依照高峰期的计算需要来配比，导致白天的资源利用有余，引入Hudi后，数据实时采集入湖，把入湖解决的工作扩散到全天的过程，实际上把整个资源耗费的顶峰和低峰抹平掉。

某金融客户基于Hudi构建数据湖，数据入湖时延降至分钟级，且白天资源利用率晋升2倍+，数据处理效率晋升50%，开发人员通过单条语句即可实现开发，简化开发难度。

ClickHouse：实时OLAP引擎，实现报表全自助高性价比的实时剖析

传统的OLAP引擎因其解决能力无限，数据个别依照专题或者主题进行组织后再与BI工具对接，导致BI用户和提供数据的数据工程师脱节。比方BI用户有一个新的需要，所需的数据没有在专题集市中，须要将需要给到数据工程师，以便开发相应的ETL工作，这个过程往往须要部门间协调，工夫周期长，合作效益低。

当初，华为云FusionInsight MRS云原生数据湖能够将所有明细数据以大宽表的模式加载ClickHouse，BI用户能够基于ClickHouse大宽表进行自助剖析，对数据工程师供数要求少，甚至在面对大部分新需要时，无需从新供数，开发效率和BI报表上线率都会失去极大晋升。同时，ClickHouse在一张表里的数据分析可达毫秒级。

基于ClickHouse实现自助BI在华为外部实际也取得了很好的成果。华为团体HIS数据湖原来基于传统OLAP引擎建模，受限于开发效率，几年才上线了几十个报表。在引入Clickhouse后，三个月工夫开发上线了400+报表，业务上线效率晋升50倍。目前，华为外部ClickHouse的整体应用规模曾经达到2000+节点，数据量规模达10+PB，日增数据量100TB。

HetuEngine：数据虚拟化引擎，冲破天文限度，突破数据“墙”

随同企业倒退与数字化转型的需要，企业业务越来越简单，翻新需要越来越高。单系**立工作难以满足业务的变动需要，企业内可能同时存在多个湖、多个仓、多个零碎，但传统计划烟囱式建设，湖仓之间、多引擎之间无间接的互联互通能力，须要通过ETL数据来回搬迁，造成数据流转链路长，数据多份冗余，产生数据孤岛。零碎多份数据冗余也难以保证数据的一致性和可靠性。

为了让数据应用更简略，跨湖协同更容易，解决湖仓数据割裂的问题，华为推出了数据虚拟化引擎HetuEngine，实现跨湖、跨仓和云上、云下、多云协同剖析的能力，冲破天文限度，突破数据“墙”，跨湖协同剖析效率晋升50倍，跨仓协同剖析缩小80%的零碎间数据搬迁同步，剖析性能从分钟级晋升至秒级。

金融某行通过引入HetuEngine数据虚拟化引擎，在数据湖查问剖析方面该行晋升了并发能力，仅1/5的资源即可反对45并发，峰值并发最大达200QPS，均匀时延优化到8秒；在湖仓协同剖析方面，通过HetuEngine买通数据湖与数仓间的数据壁垒，湖仓协同剖析性能从分钟级晋升至秒级，同时缩小80%的零碎间数据搬迁同步，大大晋升数据治理效率。

IoTDB：时序数据库，云边端协同轻松构建时序数据集市

时序数据具备两大特点：在端、边、云都有解决，时序数据采集后不须要更新。传统时序解决计划中，在端、边、云采纳不同的技术栈，异构的技术栈必将带来数据处理的复杂性。清华大学开发的时序数据库IoTDB（又称时序引擎），通过对立的时序数据文件格式TsFile，实现一份数据兼容全场景，一套引擎买通云边端、一套框架集成云边端。华为跟清华大学放弃严密的单干，最新公布的IoTDB集群版本，就是华为与清华主导开发的一个版本。

在上海、成都、重庆等城市均已采纳IoTDB治理地铁监控数据，本来144辆列车须要9台服务器，当初仅需一个IoTDB实例即可满足要求，测点的采样时延也从原来的500ms降至200ms，日增4140亿数据点治理，大大晋升资源利用率。

结语

目前，华为云FusionInsight MRS云原生数据湖携手800+生态搭档，已服务于3000+政企客户，广泛应用于公用事业、金融、运营商、能源、医疗、制作、交通等行业。

点击关注，第一工夫理解华为云陈腐技术~

关于华为云:解密华为云FusionInsight-MRS新特性一架构三湖

进入智能数据时代，业界建设数据湖的十大共识

华为云FusionInsight MRS云原生数据湖

一架构三湖新个性，笼罩数据分析全流程

Hudi：增量实时入湖，实现数据入湖时效快、开发易、性能高、资源利用率更高

ClickHouse：实时OLAP引擎，实现报表全自助高性价比的实时剖析

HetuEngine：数据虚拟化引擎，冲破天文限度，突破数据“墙”

IoTDB：时序数据库，云边端协同轻松构建时序数据集市

结语

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于华为云:解密华为云FusionInsight-MRS新特性一架构三湖

进入智能数据时代，业界建设数据湖的十大共识

华为云FusionInsight MRS云原生数据湖

一架构三湖新个性，笼罩数据分析全流程

Hudi：增量实时入湖，实现数据入湖时效快、开发易、性能高、资源利用率更高

ClickHouse：实时OLAP引擎，实现报表全自助高性价比的实时剖析

HetuEngine：数据虚拟化引擎，冲破天文限度，突破数据“墙”

IoTDB：时序数据库，云边端协同轻松构建时序数据集市

结语

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复