乐趣区

关于数据库:华为云FusionInsight湖仓一体解决方案的前世今生

摘要:华为云公布新一代智能数据湖华为云 FusionInsight 时再次提到了湖仓一体理念,那咱们就来看看湖仓一体的前世今生。

随同 5G、大数据、AI、IoT 的飞速发展,数据出现大规模、多样性的极速增长,为了应答多变的业务诉求,政企客户对数据处理剖析的实时性和交融性提出了更高的要求,“湖仓一体”的概念应运而生,它突破数据湖与数仓间的壁垒,使得割裂数据交融对立,缩小数据分析中的搬迁,实现对立的数据管理。

早在 2020 年 5 月份的华为寰球分析师大会上,华为云 CTO 张宇昕提出了“湖仓一体”概念,在随后的华为云与计算城市峰会上,“湖仓一体”理念追随华为云 FusionInsight 智能数据湖在南京、深圳、西安、重庆等地均有出现,在刚完结的 HC2020 上,张宇昕在公布新一代智能数据湖华为云 FusionInsight 时再次提到了湖仓一体理念。那咱们就来看看湖仓一体的来世今生。

数据湖和数据仓库的倒退历程和挑战

早在 1990 年,比尔·恩门(Bill Inmon)提出了数据仓库,次要是将组织内信息系统联机事务处理 (OLTP) 长年累积的大量材料,按数据仓库特有的材料贮存架构进行联机剖析解决 (OLAP)、数据挖掘(Data Mining) 等剖析,帮忙决策者疾速无效地从大量材料中剖析出有价值的资讯,以利决策制定及疾速响应外在环境变动,帮忙构建商业智能(BI)。

大概十年前,企业开始构建数据湖来应答大数据时代,它通常把所有的企业数据对立存储,既包含源零碎中的原始正本,也包含转换后的数据,比方那些用于报表, 可视化, 数据分析和机器学习的数据。

纵观数据湖与数据仓库的技术倒退,不难发现两者有着各自的优劣,具体表现如下:

表 1 湖仓比照, 各有千秋

企业在进行零碎架构设计选型时,须要从具体的剖析场景登程,繁多的模式曾经无奈满足企业倒退的业务诉求,集中体现在以下两个痛点:

  • 数据湖次要以离线批量计算为主,因为不反对数据仓库的数据管理能力,难以进步数据品质;数据入湖时效差不反对实时更新,数据无奈强一致性;主题建模不敌对,无奈间接历史拉链建模;同时交互剖析通常将数据搬迁到数据仓库平台,造成剖析链路长,数据冗余存储;批 & 流等场景交融不够,无奈满足企业的海量数据处理诉求。
  • 数据仓库满足不了非结构化数据的剖析需要,性价比不高;同时仓 & 湖间难以互联互通,数据协同效率较低,无奈反对跨平台通明拜访,造成了事实上的数据孤岛,找数艰难;不足全局数据视图,不同平台接口差别和不同开发管理工具,造成用户开发应用简单,数据别离治理保护代价高体验差。

数据湖和数据仓库正在从两条技术演进路线走向交融

综上,数据湖和数据仓库在企业数据分析场景别离承当一湖一仓的重要角色,造成了残缺的数据分析生态系统,上述企业场景面临的 2 个要害痛点也在驱动数据湖和数据仓库在技术演进上走向交融:

第一个交融方向是基于 Hadoop 体系的数据湖向数据仓库能力扩大,湖中建仓,从 DataLake 进化到 LakeHouse。LakeHouse 联合了数据湖和数据仓库特点,间接在用于数据湖的低成本存储上实现与数据仓库中相似的数据结构和数据管理性能。目前业界曾经涌现了一些 LakeHouse 产品,如 Netflix 开源 Iceberg、Uber 开源 Hudi、Databricks 的 DeltaLake。

图 2 从 DataLake 进化到 LakeHouse,数据湖扩大数仓能力

以目前生态倒退迅速的 Apache Hudi 为例:对立数据存储 ,分布式存储不同利用所需的各种类型数据; 数仓模式执行和治理 ,实现事务 & 更新机制,保障数据完整性和一致性,具备强壮的治理 & 审计机制; 反对各种剖析引擎,对立数据存储通过凋谢和标准化的存储格局(如 Parquet),提供 API 以便各类工具和引擎(包含机器学习和 Python / R 库)间接无效地拜访数据。

尽管 LakeHouse 并不能齐全代替数据仓库,但通过加强性能,反对实时入湖、建模、交互剖析等场景,将在企业剖析环境中施展更大作用。

第二个交融方向是数据湖和数据仓库协同起来向湖仓一体的交融剖析架构倒退,随着企业数据量快速增长,不仅是结构化数据,也有非结构化数据,同时提出了对搜寻 / 机器学习更多的能力要求,使得原来数仓技术不可能无效的解决简单场景,为此需扩大原有零碎,引入 Hadoop 大数据平台实现新类型数据、新业务场景的反对。在这个背景下由 Gartner 在 2011 年提出逻辑数据仓库的概念,预测企业数据分析偏向于转向一种更加逻辑化的架构,利用分布式解决、数据虚拟化以及元数据管理等技术,实现逻辑对立物理离开的协同体系。

图 2 逻辑数仓的高阶架构

湖仓一体能够认为是逻辑数据仓库架构理念下针对 Hadoop 数据湖和 MPPDB 数据仓库的交融架构的最好诠释,数据对用户将齐全实现虚拟化,以逻辑对立的数据分析系统为企业提供数据分析服务:

用户应用层面提供对立元数据管理和数据视图,实现全局数据可见可查,反对规范对立拜访接口简化用户开发,提供对立开发和治理的工具体系。

平台层面 Hadoop 与 MPPDB 具备数据共享和跨库剖析能力,反对互联互通、计算下推、协同计算,实现数据多平台之间通明流动。

华为云 FusionInsight 湖仓一体解决方案参考架构

华为云 FusionInsight 智能数据湖涵盖了分布式存储、大数据、数据仓库、数据治理等,交融了上述两个技术演进方向,为企业用户提供云原生湖仓一体解决方案,整体的参考架构如下:

图 4 华为云 FusionInsight 湖仓一体解决方案参考架构

上面一起来看看:

数据存储层:通过 OBS 对立治理湖 & 仓的存储底座,将存储在 EC(Erasure Code 纠错码)、可靠性方面的劣势融入进了大数据生态:

  • 云原生架构当先:基于云原生架构的 OBS 存储,具备高带宽,大并发,分布式元数据等特色,因而雷同老本的华为存算拆散的湖仓一体化集群,数据读写性能当先业界 30%。
  • 存储计算拆散无效升高 TCO:反对大比例 EC, 正本数从 3 最低可升高至 1.09,TCO 降落 20%+。
  • 对立元数据管理实现湖仓共享存储资源池:通过独立的 Data Lake Catalog 提供对立元数据管理,兼容 Hive Metastore 接口,能够无缝对接各类大数据组件。实现针对同一份元数据定义反对各类场景、对象、文件、大数据等不同协定间的数据共享,让数据仓库、数据湖、图引擎、AI 等多种计算引擎共享对立的数据存储池。此计划不仅打消了孤立零碎中的数据正本,还使得客户能够依照业务按需应用计算存储资源,不仅升高了 CAPEX,还简化了运维,从而达成最佳 TCO。同时,Data Lake Catalog 凋谢接口,反对和第三方的计算引擎层、数据治理层对接。

计算引擎层:把事务能力引入数据湖,通过 HetuEngine 规范 SQL 实现跨域多源对立拜访,湖 & 仓数据互通协同计算,数据免搬迁:

  • CarbonData & Hudi 数据实时入湖,实现数据湖事务能力:企业外部许多数据管道通常会并发读写数据,咱们通过 CarbonData& Hudi 数据存储引擎实现数据实时、增量更新,数据 T + 0 实时入湖,大幅缩短传统 T +1、T+ 2 时延;引入的增量解决框架,实现了数据湖事务能力,反对入湖过程中的 Update/Delete 等。
  • HetuEngine 反对跨源跨域对立 SQL 拜访,简略易用:用户层基于对立的规范 SQL 接口,对接多个数据源(HDFS, HBase, DWS 等),提供秒级交互式拜访,满足各种统计分析、多表 Join 关联等,让剖析建模人员数据分析更容易,升高拜访门槛。
  • HetuEngine & DWS-Express 突破数据墙,数据免搬迁翻新更麻利:反对数据湖与数据仓库间的数据互联互通、跨平台协同计算,数据免搬迁。HetuEngine在湖内基于对立数据目录,实现高并发,高性能的交互式查问,基于一份数据进行批、流、交互式交融剖析,贴源加工、整合关联、主题加工等都在湖内,数据不出湖,剖析链路短,减速业务翻新;用户可应用 DWS-Express 提供由成千盈百节点组成的减速集群,对存储在 OBS 上的海量数据进行在线剖析,相比本地托管集群,效率晋升数百倍。
  • 自研 Superior 调度器反对单集群 2 万 + 节点规模,业界最佳:在一个集群内,通过华为自研的 Superior 调度器反对各种工作负载对立调度,包含数据迷信、机器学习以及 SQL 和剖析,调度速率达 35 万 Container/s,资源利用率达 90%+,大幅升高企业投入老本。
  • 数据冷热分级存储实现更高效的全生命周期治理:DWS 具备与 OBS 的双向互通的能力,既能间接读取 OBS 上的海量历史数据,也可能间接写入数据到 OBS。通过这个个性,咱们能够对企业中的海量数据进行更加高效的全生命周期治理,剖析中常常应用到的热 / 温数据寄存在 DWS 中,较少应用的冷数据寄存到 OBS 中,兼顾企业对剖析性能和存储经济性的诉求。
  • 无缝连接 AI 开掘更多数据价值:深度优化一站式开发平台 ModelArts& 分布式图计算引擎 GES 进步开发效率。提供基于数据湖的 AI 训练推理能力,缩小数据搬迁次数,基于 100+ 机器学习算子和 NLP 算法,实现海量数据疾速价值开掘,满足场景预测、自然语言解决及企业常识图谱等利用;让 GES 更快捷地为金融等场景提供关系网络分析等服务。

经营管理层:通过 DAYU 实现了湖 & 仓对立的数据集成、开发、目录、治理、凋谢服务等的经营治理:

  • 数据集成:实现多源异构数据高效入湖,反对批 / 流 / 实时数据多种形式接入。其中,批量数据迁徙基于分布式计算框架,利用并行化解决技术,反对用户稳固高效地对海量数据进行挪动,实现不停服数据迁徙,疾速构建所需的数据架构;流和实时数据接入每小时可从数十万种数据源(例如日志和定位追踪事件、网站点击流、社交媒体源等)中间断捕捉、传送和存储数 TB 数据。
  • 数据开发:提供一站式麻利数据开发平台,提供可视化的图形开发界面、丰盛的数据开发类型(脚本开发和作业开发)、全托管的作业调度和运维监控能力,内置行业数据处理 pipeline,一键式开发,全流程可视化,反对多人在线协同开发,反对治理多种大数据云服务,极大地升高了用户应用大数据的门槛,帮忙用户疾速构建数据湖数据处理核心。
  • 数据治理:为企业提供数据体系规范和数据标准定义的方法论,对立数据语言和数据建模;为一般业务人员提供高效、精确的数据搜寻工具,高效找到数据;提供技术元数据与业务元数据的关联,业务人员疾速读懂数据;为数据提供无效的品质管控和评估伎俩,数据可信品质高。
  • 数据凋谢:为数据湖搭建对立的数据服务总线,帮忙企业对立治理对内对外的 API 服务,撑持业务主题 / 画像 / 指标的拜访、查问和检索,晋升数据生产体验和效率;反对 100+ 凋谢 API,领有 10+ 行业模板,使能行业 ISV 疾速集成,助力客户数据规范资产积淀。

综上所述,正是在三层架构都买通了湖仓的技术壁垒,咱们才看到了真正的湖仓一体:

数据存储层 基于云原生当先架构,存算拆散无效升高 TCO,对立元数据管理实现湖仓共享存储资源池,针对同一份元数据定义反对各种场景,提供 API 不便各类工具和引擎(包含机器学习、Python、R 等)间接无效地拜访数据,这是实现湖仓一体的一个关键点;

计算引擎层 为数据湖减少了事务能力晋升了数据品质;利用 HetuEngine 通过规范 SQL 拜访跨域多源数据,实现湖 & 仓数据关联剖析协同计算,简略易用; 突破数据墙,在湖内基于对立数据目录,可基于数据湖实现交融剖析 &AI 训练推理,缩小数据搬迁,实现海量数据疾速价值开掘。

经营管理层 则提供对立的数据开发和治理环境,具备平安治理性能,反对多引擎工作对立开发和编排,数据对立建模和品质监测,实现湖仓统一的开发治理体验。

将来瞻望

华为云 FusionInsight 智能数据湖基于客户需要和技术演进趋势继续翻新,为企业客户提供湖仓一体解决方案,致力于打造业界最佳的数据底座,让企业业务的翻新更麻利,业务洞察更精确,减速开释数据价值,和数据使能协同更好地服务千行万业!

点击关注,第一工夫理解华为云陈腐技术~

退出移动版