关于数据库:华为云FusionInsight湖仓一体解决方案的前世今生

摘要：华为云公布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体理念，那咱们就来看看湖仓一体的前世今生。

随同5G、大数据、AI、IoT的飞速发展，数据出现大规模、多样性的极速增长，为了应答多变的业务诉求，政企客户对数据处理剖析的实时性和交融性提出了更高的要求，“湖仓一体”的概念应运而生，它突破数据湖与数仓间的壁垒，使得割裂数据交融对立，缩小数据分析中的搬迁，实现对立的数据管理。

早在2020年5月份的华为寰球分析师大会上，华为云CTO张宇昕提出了“湖仓一体”概念，在随后的华为云与计算城市峰会上，“湖仓一体”理念追随华为云FusionInsight智能数据湖在南京、深圳、西安、重庆等地均有出现，在刚完结的HC2020上，张宇昕在公布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体理念。那咱们就来看看湖仓一体的来世今生。

数据湖和数据仓库的倒退历程和挑战

早在1990年，比尔·恩门（Bill Inmon）提出了数据仓库，次要是将组织内信息系统联机事务处理(OLTP)长年累积的大量材料，按数据仓库特有的材料贮存架构进行联机剖析解决(OLAP)、数据挖掘(Data Mining)等剖析，帮忙决策者疾速无效地从大量材料中剖析出有价值的资讯，以利决策制定及疾速响应外在环境变动，帮忙构建商业智能(BI)。

大概十年前，企业开始构建数据湖来应答大数据时代，它通常把所有的企业数据对立存储，既包含源零碎中的原始正本，也包含转换后的数据，比方那些用于报表, 可视化, 数据分析和机器学习的数据。

纵观数据湖与数据仓库的技术倒退，不难发现两者有着各自的优劣，具体表现如下：

表1 湖仓比照, 各有千秋

企业在进行零碎架构设计选型时，须要从具体的剖析场景登程，繁多的模式曾经无奈满足企业倒退的业务诉求，集中体现在以下两个痛点：

数据湖次要以离线批量计算为主，因为不反对数据仓库的数据管理能力，难以进步数据品质；数据入湖时效差不反对实时更新，数据无奈强一致性；主题建模不敌对，无奈间接历史拉链建模；同时交互剖析通常将数据搬迁到数据仓库平台，造成剖析链路长，数据冗余存储；批&流等场景交融不够，无奈满足企业的海量数据处理诉求。
数据仓库满足不了非结构化数据的剖析需要，性价比不高；同时仓&湖间难以互联互通，数据协同效率较低，无奈反对跨平台通明拜访，造成了事实上的数据孤岛，找数艰难；不足全局数据视图，不同平台接口差别和不同开发管理工具，造成用户开发应用简单，数据别离治理保护代价高体验差。

数据湖和数据仓库正在从两条技术演进路线走向交融

综上，数据湖和数据仓库在企业数据分析场景别离承当一湖一仓的重要角色，造成了残缺的数据分析生态系统，上述企业场景面临的2个要害痛点也在驱动数据湖和数据仓库在技术演进上走向交融：

第一个交融方向是基于Hadoop体系的数据湖向数据仓库能力扩大，湖中建仓，从DataLake进化到LakeHouse。LakeHouse联合了数据湖和数据仓库特点，间接在用于数据湖的低成本存储上实现与数据仓库中相似的数据结构和数据管理性能。目前业界曾经涌现了一些LakeHouse产品，如Netflix开源Iceberg、Uber开源Hudi、Databricks的 DeltaLake。

图2从DataLake进化到LakeHouse，数据湖扩大数仓能力

以目前生态倒退迅速的Apache Hudi为例：对立数据存储，分布式存储不同利用所需的各种类型数据；数仓模式执行和治理，实现事务&更新机制，保障数据完整性和一致性，具备强壮的治理&审计机制；反对各种剖析引擎，对立数据存储通过凋谢和标准化的存储格局（如Parquet），提供API以便各类工具和引擎（包含机器学习和Python / R库）间接无效地拜访数据。

尽管LakeHouse并不能齐全代替数据仓库，但通过加强性能，反对实时入湖、建模、交互剖析等场景，将在企业剖析环境中施展更大作用。

第二个交融方向是数据湖和数据仓库协同起来向湖仓一体的交融剖析架构倒退，随着企业数据量快速增长，不仅是结构化数据，也有非结构化数据，同时提出了对搜寻/机器学习更多的能力要求，使得原来数仓技术不可能无效的解决简单场景，为此需扩大原有零碎，引入Hadoop大数据平台实现新类型数据、新业务场景的反对。在这个背景下由Gartner在2011年提出逻辑数据仓库的概念，预测企业数据分析偏向于转向一种更加逻辑化的架构，利用分布式解决、数据虚拟化以及元数据管理等技术，实现逻辑对立物理离开的协同体系。

图2 逻辑数仓的高阶架构

湖仓一体能够认为是逻辑数据仓库架构理念下针对Hadoop数据湖和MPPDB数据仓库的交融架构的最好诠释，数据对用户将齐全实现虚拟化，以逻辑对立的数据分析系统为企业提供数据分析服务：

用户应用层面提供对立元数据管理和数据视图，实现全局数据可见可查，反对规范对立拜访接口简化用户开发，提供对立开发和治理的工具体系。

平台层面Hadoop与MPPDB具备数据共享和跨库剖析能力，反对互联互通、计算下推、协同计算，实现数据多平台之间通明流动。

华为云FusionInsight湖仓一体解决方案参考架构

华为云FusionInsight智能数据湖涵盖了分布式存储、大数据、数据仓库、数据治理等，交融了上述两个技术演进方向，为企业用户提供云原生湖仓一体解决方案，整体的参考架构如下：

图4 华为云FusionInsight湖仓一体解决方案参考架构

上面一起来看看：

数据存储层：通过OBS对立治理湖&仓的存储底座，将存储在EC（Erasure Code纠错码）、可靠性方面的劣势融入进了大数据生态：

云原生架构当先：基于云原生架构的OBS存储，具备高带宽，大并发，分布式元数据等特色，因而雷同老本的华为存算拆散的湖仓一体化集群，数据读写性能当先业界30%。
存储计算拆散无效升高TCO：反对大比例EC, 正本数从3最低可升高至1.09，TCO降落20%+。
对立元数据管理实现湖仓共享存储资源池：通过独立的Data Lake Catalog提供对立元数据管理，兼容Hive Metastore接口，能够无缝对接各类大数据组件。实现针对同一份元数据定义反对各类场景、对象、文件、大数据等不同协定间的数据共享，让数据仓库、数据湖、图引擎、AI等多种计算引擎共享对立的数据存储池。此计划不仅打消了孤立零碎中的数据正本，还使得客户能够依照业务按需应用计算存储资源，不仅升高了CAPEX，还简化了运维，从而达成最佳TCO。同时，Data Lake Catalog凋谢接口，反对和第三方的计算引擎层、数据治理层对接。

计算引擎层：把事务能力引入数据湖，通过HetuEngine规范SQL实现跨域多源对立拜访，湖&仓数据互通协同计算，数据免搬迁：

CarbonData & Hudi数据实时入湖，实现数据湖事务能力：企业外部许多数据管道通常会并发读写数据，咱们通过CarbonData& Hudi数据存储引擎实现数据实时、增量更新，数据T+0实时入湖，大幅缩短传统T+1、T+2时延；引入的增量解决框架，实现了数据湖事务能力，反对入湖过程中的Update/Delete等。
HetuEngine反对跨源跨域对立SQL拜访，简略易用：用户层基于对立的规范SQL接口，对接多个数据源（HDFS, HBase, DWS等），提供秒级交互式拜访，满足各种统计分析、多表Join关联等，让剖析建模人员数据分析更容易，升高拜访门槛。
HetuEngine & DWS-Express突破数据墙，数据免搬迁翻新更麻利：反对数据湖与数据仓库间的数据互联互通、跨平台协同计算，数据免搬迁。HetuEngine在湖内基于对立数据目录，实现高并发，高性能的交互式查问，基于一份数据进行批、流、交互式交融剖析，贴源加工、整合关联、主题加工等都在湖内，数据不出湖，剖析链路短，减速业务翻新；用户可应用DWS-Express提供由成千盈百节点组成的减速集群，对存储在OBS上的海量数据进行在线剖析，相比本地托管集群，效率晋升数百倍。
自研Superior调度器反对单集群2万+节点规模，业界最佳：在一个集群内，通过华为自研的Superior调度器反对各种工作负载对立调度，包含数据迷信、机器学习以及SQL和剖析，调度速率达35万Container/s，资源利用率达90%+，大幅升高企业投入老本。
数据冷热分级存储实现更高效的全生命周期治理：DWS具备与OBS的双向互通的能力，既能间接读取OBS上的海量历史数据，也可能间接写入数据到OBS。通过这个个性，咱们能够对企业中的海量数据进行更加高效的全生命周期治理，剖析中常常应用到的热/温数据寄存在DWS中，较少应用的冷数据寄存到OBS中，兼顾企业对剖析性能和存储经济性的诉求。
无缝连接AI开掘更多数据价值：深度优化一站式开发平台ModelArts&分布式图计算引擎GES进步开发效率。提供基于数据湖的AI训练推理能力，缩小数据搬迁次数，基于100+机器学习算子和NLP算法，实现海量数据疾速价值开掘，满足场景预测、自然语言解决及企业常识图谱等利用；让GES更快捷地为金融等场景提供关系网络分析等服务。

经营管理层：通过DAYU实现了湖&仓对立的数据集成、开发、目录、治理、凋谢服务等的经营治理：

数据集成：实现多源异构数据高效入湖，反对批/流/实时数据多种形式接入。其中，批量数据迁徙基于分布式计算框架，利用并行化解决技术，反对用户稳固高效地对海量数据进行挪动，实现不停服数据迁徙，疾速构建所需的数据架构；流和实时数据接入每小时可从数十万种数据源（例如日志和定位追踪事件、网站点击流、社交媒体源等）中间断捕捉、传送和存储数TB数据。
数据开发：提供一站式麻利数据开发平台，提供可视化的图形开发界面、丰盛的数据开发类型（脚本开发和作业开发）、全托管的作业调度和运维监控能力，内置行业数据处理pipeline，一键式开发，全流程可视化，反对多人在线协同开发，反对治理多种大数据云服务，极大地升高了用户应用大数据的门槛，帮忙用户疾速构建数据湖数据处理核心。
数据治理：为企业提供数据体系规范和数据标准定义的方法论，对立数据语言和数据建模；为一般业务人员提供高效、精确的数据搜寻工具，高效找到数据；提供技术元数据与业务元数据的关联，业务人员疾速读懂数据；为数据提供无效的品质管控和评估伎俩，数据可信品质高。
数据凋谢：为数据湖搭建对立的数据服务总线，帮忙企业对立治理对内对外的API服务，撑持业务主题/画像/指标的拜访、查问和检索，晋升数据生产体验和效率；反对100+凋谢API，领有10+行业模板，使能行业ISV疾速集成，助力客户数据规范资产积淀。

综上所述，正是在三层架构都买通了湖仓的技术壁垒，咱们才看到了真正的湖仓一体：

数据存储层基于云原生当先架构，存算拆散无效升高TCO，对立元数据管理实现湖仓共享存储资源池，针对同一份元数据定义反对各种场景，提供API不便各类工具和引擎（包含机器学习、Python、R等）间接无效地拜访数据，这是实现湖仓一体的一个关键点；

计算引擎层为数据湖减少了事务能力晋升了数据品质；利用HetuEngine通过规范SQL拜访跨域多源数据，实现湖&仓数据关联剖析协同计算，简略易用; 突破数据墙，在湖内基于对立数据目录，可基于数据湖实现交融剖析&AI训练推理，缩小数据搬迁，实现海量数据疾速价值开掘。

经营管理层则提供对立的数据开发和治理环境，具备平安治理性能，反对多引擎工作对立开发和编排，数据对立建模和品质监测，实现湖仓统一的开发治理体验。

将来瞻望

华为云FusionInsight智能数据湖基于客户需要和技术演进趋势继续翻新，为企业客户提供湖仓一体解决方案，致力于打造业界最佳的数据底座，让企业业务的翻新更麻利，业务洞察更精确，减速开释数据价值，和数据使能协同更好地服务千行万业！

点击关注，第一工夫理解华为云陈腐技术~

关于数据库:华为云FusionInsight湖仓一体解决方案的前世今生

数据湖和数据仓库的倒退历程和挑战

数据湖和数据仓库正在从两条技术演进路线走向交融

华为云FusionInsight湖仓一体解决方案参考架构

将来瞻望

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据库:华为云FusionInsight湖仓一体解决方案的前世今生

数据湖和数据仓库的倒退历程和挑战

数据湖和数据仓库正在从两条技术演进路线走向交融

华为云FusionInsight湖仓一体解决方案参考架构

将来瞻望

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复