共计 1775 个字符,预计需要花费 5 分钟才能阅读完成。
很多小伙伴始终搞不懂什么是湖仓一体,查阅很多材料失去的都是基于不同厂商的产品和计划介绍,而非清晰的概念与行业共识,所以笔者特地策动了一篇湖仓一体的比拟剖析,通过《火影忍者》中两个重要角色的类比帮你霎时搞懂湖仓一体。想必火影老粉对九尾人柱力和佩恩六道这两个角色的印象应该十分粗浅,不过在此还是先给不相熟火影的读者疾速科普下。火影世界有九个巨型怪兽祸乱世间。为了世间战争,尾兽们被封印在了不同人类的体内。人柱在日本文化中被视为一种蕴藏神明力量的灵魂容器,人柱力即被尾兽附身的人,为封印尾兽而存在。人柱力能够通过驯服体内的尾兽取得巨大力量,人柱力与尾兽一荣俱荣,一损俱损。
佩恩六道是由六具死者尸体革新成的六个傀儡忍者,统称为佩恩六道。每个佩恩的脸上和身材都插着能连贯信号的黑棒形态的查克拉接收器,六个佩恩能共享彼此的视线。佩恩六道的操纵者长门通过背地插满黑棒作为信号和查克拉接收器操控每个佩恩。
抛开角色的性情和战力,佩恩六道和人柱力最实质的区别就是物理层面的身材隔离:佩恩六道是六个傀儡忍者的战斗组合,而九尾人柱力是一个忍者肉身住了两个灵魂。二者的差异像极了目前软件行业上湖仓分体和湖仓一体概念的架构差别。在剖析型数据库(OLAP)畛域,曾先后呈现 MPP 和 Hadoop,MPP 数据库次要用作数据仓库,Hadoop 大数据平台承当起数据湖的职能。因而,随着用户对湖和仓的要求一直进步,天然会呈现湖仓协同的尝试和摸索,也就造成了 MPP+Hadoop 模式,咱们称之为湖仓分体模式。湖仓分体模式下的湖、仓各自独立部署,数据通过 ETL 的形式买通。正如佩恩六道,每个傀儡忍者的肉身是独立的,但视觉是共享的,由长门通过查克拉接收器进行整体操控。
通过佩恩六道形象的了解了湖仓分体,九尾人柱力天然就成了湖仓一体的最佳阐释。湖仓一体架构下的湖和仓是原生一体的,物理层面部署在同一集群,共享同一份数据,没有数据冗余。正如九尾妖狐封印在鸣人(人柱力)体内,肉身层面人造一体,不可分割。
将九尾人柱力比作湖仓一体,将佩恩六道比作湖仓分体,并不意味着湖仓一体和湖仓分体的“战力”也如漫画原著一样存在争议。湖仓一体与湖仓分体不仅在架构层面有着差别,架构设计理念对企业数据基础设施建设的影响也是微小的。湖仓分体模式,也就是 MPP+Hadoop 模式的最大问题和特点就是数据孤岛,造成数据孤岛的起因有几个方面:1、技术架构原生造成的数据孤岛
湖仓分体计划基本上是以湖、仓和其余组件形成,逻辑上为用户提供对立的数据管理,但物理层面湖和仓依然是拆散的,同一份数据在多个集群冗余存储,导致分体模式下的湖和仓各自造成数据孤岛。2、集群规模受限造成的数据孤岛
少数的湖通过 Hadoop 构建,数仓是 MPP 数据库,当数据达到 PB 级别,因为 Hadoop 和 MPP 集群规模受限,企业往往会部署和应用多个 Hadoop 集群和多个 MPP 集群,事实上进一步造成了数据孤岛。3、高并发被迫造成的数据孤岛
越来越多的剖析利用场景导致了逐步低落的并发查问需要,无论是 Hadoop 还是 MPP 都法撑持这种简单查问的并发需要。MPP 数据仓库繁多集群反对的并发数仅达到几十左右,而 Hadoop 反对的并发则更低,因而一个遍历数百 TB 数据的简单查问可能使整个零碎的性能受到很大影响。为了满足高并发,企业不得不把业务宰割到更多的集群中,造成更重大的数据孤岛。湖仓一体通过什么样的技术实现的?随着私有云和公有云的遍及,为了保障存储和计算能够独立的弹性扩大和伸缩,数据平台的设计呈现了一个簇新的架构,即存算拆散架构。MPP 数据库存算耦合,而 Hadoop 不得不通过计算和存储部署在同一物理集群拉近计算与数据的间隔,因而 MPP 和 Hadoop 都不再适应云平台的要求。在此阶段,Snowflake 和 OushuDB 冲破了传统 MPP 和 Hadoop 的局限性,率先实现了存算齐全拆散,成为湖仓一体实现的关键技术。
以 OushuDB 为例,实现了存算拆散的云原生架构,并通过虚构计算集群技术在数十万节点的超大规模集群上实现了高并发,保障事务反对,提供实时能力,一份数据再无数据孤岛。
火影老粉对九尾人柱力和佩恩六道两角色的战力之争从未进行过,就像现阶段湖仓一体市场上的一致继续存在着,然而正如九尾人柱力头顶配角光环一样,湖仓一体架构必将在群雄逐鹿之后的数据管理畛域成为关注焦点。