关于数据库:基于HashData的湖仓一体解决方案的探索与实践

2023年4月7日，由中国DBA联盟（ACDU）和墨天轮社区联结主办的第十二届『数据技术嘉年华』(DTC 2023) 在北京新云南皇冠假日酒店隆重开启。HashData资深解决方案架构师李俊在4月8号专题会场6-“交融利用：湖仓技术创新”上发表了《基于HashData的湖仓一体解决方案的摸索与实际》的专题演讲。本文依据演讲实录整顿而成，演讲注释如下（全文浏览须要20分钟以上）：

一、湖仓一体的演进

数据仓库的概念是比尔·恩门（Bill Inmon）在1991年出版的《Building the Data Warehouse》一书正式提出后被宽泛承受。通过30年倒退，在金融、通信、航空等各行各业都是有广泛应用。数据仓库具备便于BI和报表零碎接入，数据管控能力强的劣势，然而随着大数据的衰亡，体现出不反对非结构化数据、专有零碎老本高，专有数据格式、灵便度低的劣势。

数据湖的概念衰亡于大数据的呈现，是在2010年左右，它具备存储老本较低、反对非结构化数据。数据湖一度被认为会取代数据仓库，然而随着数据湖投入理论利用中，人们逐渐发现到它的一些劣势：对BI零碎的反对有余、查问性能低、数据交互不实时、可靠性差等问题。在数据湖与数据仓库之间学术界、工业界产生过强烈的辩论，最初根本达成共识：数据仓库与数据湖就像苹果与橙子，它们是齐全不同的货色，不会互相取代。

数据仓库和数据湖不会互相取代，它们会共存，独特组成企业的数据平台。Gartner提出的逻辑数据仓库概念就包含了数据仓库和数据湖两个局部，这也是目前大多数企业的一个现状。

然而创新者并不满足于现状，在2020年左右由Databrick公司率先提出了Lakehouse的概念，在国内翻译成湖仓一体或者湖仓。不难看出Lakehouse是前一半起源Data Lake，后一半是起源Data Warehouse。它的寓意是Lakehouse排汇数据湖和数据仓库的劣势，创立一个新的平台。

湖仓一体（Lakehouse）别离在数据格式、数据类型、数据拜访、可靠性、治理与平安、性能、扩展性、用户场景反对提出新要求。

为了满足上述的新要求，湖仓一体（Lakehouse）必须具备如下的要害能力。存算拆散数据湖须要晋升的要害能力：事务BI反对性能数据治理与平安数据仓库须要晋升的要害能力：多数据类型机器学习老本二、国外湖仓技术倒退简介

提到国外的湖仓技术，人们探讨最多的Databrick、Hudi、Iceberg这三家开源解决方案。Databrick家解决方案是DeltaLake,我有幸加入过DeltaLake的产品培训和试用，的确具备了事务、BI反对、性能等方面的要害能力，体验很好。

Apache Hudi是DeltaLake的竞争对手。

Apache Iceberg是DeltaLake的另一个竞争对手。正是因为开源Hudi、Iceberg疾速的倒退，逼迫DeltaLake由商用改为开源。谈到Iceberg，咱们须要重点介绍一个概念：Table Format(数据表格格局)，Table Format是形象层，帮忙计算引擎解决底层的存储格局（ORC、Parquet等），而不是像以前那样须要间接操作底层存储。这个概念很重要，在前面的技术分享会用到。

下面提到Apahce DeltaLake/Apache Hudi/Apache Icerberg三种开源解决方案都是数据湖向数据仓库交融的技术路线，HashData作为一个数据仓库解决方案将向大家开展一个数据仓库向数据湖交融的新视角。三、HashData翻新与摸索实际

HashData最后的产品原型是基于Greenplum，它是一个典型的MPP架构，然而它是存算耦合的，即数据存储、数据计算都在一个数据节点。

通过面向云原生的重复迭代设计后，HashData v3的架构是这样的。它是一个服务、计算、存储三者拆散的架构，无效解决了传统MPP的木桶效应问题，使得HashData数据仓库具备反对超大规模的集群能力。

HashData目前曾经胜利利用于C行的超大规模数据仓库服务，截止2022年底，目前在生产中曾经有2万多个数据节点在运行，数据存储约13PB左右。

数据仓库向数据湖交融另一挑战是如何提供低成本解决方案？来自华为云官网的数据显示，对象存储的老本仅仅只有磁盘、SSD的价格的几十分之一。如果把所有的数据全副存储在对象存储中，整体解决方案将大幅升高。可怜的是对象存储的IO不太好，这样会就义性能。在价格和性能两头，咱们采纳多级存储技术：长久化数据存储在对象存储中，在计算层减少热点缓存技术，很好的解决了这个问题。

采纳了对象存储的HashData数据湖解决方案整体老本能够升高到原来的1/10，但通过热点缓存技术保障了性能。相干Benchmark数据报告表明，性能十分靠近原来的程度。

对于机器产生的数据比方IoT数据，HashData反对流式计算引擎准实时写入，从而进步数据分析的实效性。

在A能源团体案例中，对立数据湖曾经存储油藏、地质、勘探、生产等数据1.7PB，当然也有下面提到的机器设备产生的流式数据。

对于半结构化数据，当初基本上数据库都有很好的反对，这是不反复阐明了。重点在于非结构化数据，数据库其实能够以二进制形式存储图片等，但应用起来比拟麻烦，这不是一个好的解决办法。对于非结构化分析，目前咱们给出的解决方案是分两局部：原始文件存储在对象存储中。解析进去的结构化数据存储于数据库中，便于检索比对。

上面以高速公路的卡口数据分析案例进一步阐明。摄像头抓拍车牌信息后，将原始照片存储到对象存储，以做原始证据。解析进去的车牌号、色彩、工夫寄存到HashData数据库，以反对流量统计监测、逃费稽核等利用。

对于机器学习，HashData反对SQL形式调用函数在库内进行机器学习，当初新增反对更凋谢的Python的原生反对。

综上，HashData湖仓一体解决方案是一个以服务、计算、存储三者拆散的技术架构为基石，面向多种场景，包含数据仓库、数据湖，也包含数据因素市场等场景的解决方案。四、湖仓交融的思考与瞻望

湖仓交融后的会造成一个对立存储+多计算引擎的格局。

对于数据格式的交融，HashData后续会引入Iceberg作为TableFormat。

关于数据库:基于HashData的湖仓一体解决方案的探索与实践

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据库:基于HashData的湖仓一体解决方案的探索与实践

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复