关于大数据:破解湖仓混合架构顽疾星环科技推出自主可控云原生湖仓一体平台

1次阅读

共计 4427 个字符,预计需要花费 12 分钟才能阅读完成。

近些年来,随着企业数字化转型继续推动,在数据的剖析利用方面,其广度和深度都在一直向外延长。在剖析广度方面,次要体现在所剖析数据的类型以及剖析场景更加多样化、多元化;在剖析深度方面,次要体现在更关注多源异构数据的交融剖析以及基于数据科学技术进行数据价值的深度开掘。

与此同时,为了满足多样化的数据分析需要,企业数据平台架构也在继续演进。繁多数据湖和数据仓库已不能适应数据分析的发展趋势,越来越多企业开始基于“湖(Hadoop 技术体系)”+“仓 (MPP 技术体系)”的混合架构打造本人的企业级数据平台。这种混合架构交融了“湖”和“仓”各自的技术劣势,能够在肯定水平上撑持企业多样化的数据分析场景,然而在数据平台的易用性、可维护性、数据处理效率以及存储老本方面都存在肯定的有余。

星环科技政府与公共事业部零碎架构的负责人徐流明介绍说,“湖(Hadoop 技术体系)”+“仓(MPP 技术体系)”的混合架构是在数据平台架构演进过程中技术向业务斗争的一个产物。Hadoop 技术体系在设计之初次要是为了解决海量数据的离线批处理问题,在高并发数据集市、即席查问、事务一致性等方面存在先天不足;而 MPP 技术体系是从关系型数据库演进而来,对事务一致性、OLAP 剖析性能都有比拟好的撑持,然而在剖析场景方面存在比拟大的局限性,次要以结构化数据分析为主,无奈撑持半 / 非结构化数据存储、实时计算、机器学习等场景。同时,在前些年, 业内又没有比拟成熟的技术体系可能同时满足“湖”+“仓”的所有场景,所以才催生了“Hadoop+MPP”的混合架构。

然而,随着多模型数据库技术的衰亡,“湖”“仓”之间的技术壁垒无望被突破,湖仓一体的概念也应运而生。所谓湖仓一体,就是交融数据湖和数据仓库的一种新型开放式数据平台架构,将数据湖和数据仓库的劣势充沛联合,构建在数据湖低成本的数据存储架构之上,又继承了数据仓库的数据处理、剖析和治理性能。

从技术角度看,“湖仓一体”架构是以多模型数据平台技术为依靠,突破传统 Hadoop+MPP 混合部署模式,实现湖仓技术架构对立。将来,湖仓一体作为新一代大数据技术架构,将逐步取代繁多数据湖和数据仓库架构。

以需要为牵引,湖仓一体时代降临

任何技术的更新迭代都是以需要为牵引的,数据平台的建设也不例外。近年来,数据分析需要的演进趋势体现在四个方面:

第一,数据类型多元化。由原来的以结构化数据为主,转变为结构化、非结构化、半结构化和实时音讯数据共存的状况。

第二,剖析场景多样化。由原来的以统计分析为主,转变为统计分析、标签剖析、全文检索、预测剖析、甚至是基于图数据的推理剖析等共存。

第三,剖析时效实时化。由以离线剖析为主,转变为实时剖析、交互剖析、自助剖析等。

第四,数据管控统一化。由原来的弱管控模式转变为了强管控,体现在对立数据规范、对立数据存储、对立数据治理以及对立数据视图。

在需要演进的趋势下,企业级数据平台架构也进行一直迭代,次要经验了四个阶段

数据库阶段。在上个世纪 80 年代,数据分析次要是基于业务数据库,做一些单零碎的简略剖析。

数据仓库阶段。到了 90 年代,数仓的概念开始衰亡,各个企业开始构建本人的数据仓库平台,把业务零碎数据都抽取到数仓之中,进行一些多维的、关联性的、交融性的 BI 剖析,以辅助决策。

数据湖阶段。到了 2010 年前后,随着大数据技术的衰亡,数据湖的概念随之而来。数据湖不仅反对结构化数据的解决,同时还反对半结构化、非结构化数据的存储和查问。同时,在数据利用场景上,也更加的多元化,呈现了实时剖析、全文检索、机器学习等一些新型的剖析场景。

在这一阶段,大家的关注点在于用不同的技术栈来撑持不同的数据分析场景,对数据平台架构的易用性、可维护性却没有过多的关注,导致很多企业建设的数据平台架构十分之简单,为前期平台迭代以及运维都造成了很大困扰。

湖仓一体阶段。近两年来,湖仓一体的概念衰亡,企业开始逐渐关注数据平台架构问题,更强调通过对立的架构,依靠一个一站式的多模型数据平台来解决数据湖、数据仓库多样化的数据分析场景。

技术向业务斗争,“湖 + 仓”混合架构面临多重挑战

在湖仓一体的概念呈现之前,其实业内湖 + 仓的混合架构曾经存在了多年,而且有些企业把这种湖 + 仓的架构也称为湖仓一体,实际上湖仓一体并不等于简略的数据湖 + 数据仓库。

湖 + 仓混合架构有几个比拟典型的特点:

数据湖和数据仓库是两套绝对独立的体系,混合部署在一个数据平台上。数据湖是基于 Hadoop 技术来实现,次要用于撑持多源异构的数据存储,执行批处理、流解决等工作负载。数据仓库次要基于 MPP 或者一些关系型数据库来实现,次要撑持结构化数据在 OLAP 场景下的 BI 剖析和查问需要。湖和仓是相互独立的,通过 ETL 实现数据的替换。

这种架构能够在肯定水平上解决企业多场景的数据分析需要,然而也有一些显著的弊病。

  • 第一,混合部署架构较为简单,导致架构设计和我的项目施行交付老本较高,且前期平台运维难度较大。
  • 第二,数据冗余非常明显,减少存储的老本。Hadoop 和 MPP 都属于分布式系统,分布式系统为了保障数据的高可靠性,个别都是通过冗余备份的形式实现的。两种技术自身都曾经做了数据的冗余备份,采纳混合架构又防止不了有局部的数据既存在 Hadoop 平台,又存在 MPP 平台,进一步减少了数据冗余的比例,减少存储的老本。
  • 第三, 数据处理的链路过长,影响查问的时效性。通常数据处理要先入湖,进行批处理后再入仓,在数仓中进行主题建模剖析,最终为下层提供查问服务,整个加工链路绝对比拟长,而且两头有湖入仓还要进行一次 ETL,影响查问的时效性。
  • 第四,数据的一致性问题,减少了数据校验老本。无论是由湖入仓还是由仓入湖,实际上在混合架构下都是在两种数据平台间的数据迁徙,在迁徙的过程当中难免会呈现数据一致性问题,减少额定的数据校验老本。

湖 + 仓的混合架构是技术向业务斗争的一个产物,并不是真正意义上的湖仓一体平台。在前些年, 业内没有比拟成熟的技术体系可能同时满足“湖”+“仓”的所有场景,所以才催生了“Hadoop+MPP”的混合架构。

突破“湖”“仓”技术壁垒,湖仓一体是将来演进趋势,其特点有几个方面:

  • 多模存储:湖仓一体平台具备对立数据存储管理能力,反对结构化、半结构化、非结构化的数据对立存储,同时反对多种数据存储模型;
  • 架构对立:湖仓一体具备 4 层对立架构。在资源管理层能够实现对立的资源调度框架,反对计算和存储单元弹性伸缩;在存储层具备对立数据存储能力,实现多源异构数据对立治理;在计算层反对对立计算引擎,能够实现跨模态数据的交融剖析;在接口层反对对立数据接口,可能为下层利用提供对立易用的查问接口。湖仓一体架构对立,能够防止混合架构带来的开发难、运维难、存储老本高、数据处理效率底等问题。
  • 性能卓越:湖仓一体平台性能更卓越。因为在对立架构下,数据湖和数据仓库都是采纳一体化设计,缩小了数据加工的链路,减少了资源的复用性,时效性更好。
  • 全面赋能:通过湖仓一体平台,能够同时满足“湖”“仓”的数据分析需要,反对多样化的业务场景,可能为企业级各类业务零碎、各种剖析场景提供全面赋能。
  • “湖仓一体”架构以多模型数据平台技术为依靠,突破 Hadoop+MPP 混合部署模式,实现湖仓技术架构对立,属于真正的湖仓一体平台。

自主可控,星环科技“湖仓一体”的解决之道

星环科技推出的湖仓一体解决方案,总体分为五层架构:

第一层是基础设施层,能够兼容信创自主可控的硬件生态,兼容支流 X86 及 ARM 架构服务器,反对 CentOS、Redhat、麒麟 V10、统信 UOS 等支流操作系统,同时反对 ARM 与 X86 架构混合部署。

第二层是对立资源管理层,星环科技推出基于云原生技术的容器化操作系统 TCOS,提供对立的资源调度框架,通过容器化编排,可能对立调度计算、存储、网络等各类根底资源。

第三层是对立存储管理层,星环科技研发了对立的分布式数据管理系统 TDDMS, 为不同存储引擎提供公共的存储管理服务,保障数据一致性,实现数据对立治理运维和高可用。目前分布式数据管理系统接入了 9 款存储引擎,反对 10 种数据模型的存储。用户不须要为不同模型建设独自的存储系统,而是通过对立的存储管理,升高了运维治理老本,也防止了数据孤岛。同时分布式数据管理系统的插件个性,也不便后续业务的灵便扩大,能够依据须要接入其余存储引擎。

第四层是对立计算引擎层,基于分布式计算引擎 Transwarp Nucleon 能够依据不同的存储引擎主动匹配高性能算法,不仅能够反对批处理、流解决等不同类型计算工作,还反对跨模态数据的交融剖析,不便用户在一个 SQL 中应用不同模型的数据,升高开发难度,晋升开发效率。

第五层是对立数据操作层,次要提供规范的 SQL 语法反对,能够实现对立接口解决不同的业务和不同数据模型,只须要简略的 SQL 语句即可实现各种复合跨模型数据查问,无需拜访不同接口即可操作不同的数据模型。对于场景切换、数据库切换而造成接口、开发语言切换的问题就不存在了,开发和迁徙老本大大降低。

贯通这五层架构,星环科技湖仓一体平台还提供了全生命周期的数据管控能力,能够实现多模态数据以及元数据的对立管控,同时还反对对立的多租户治理,可确保在湖仓一体平台上的租户从资源层、数据层、应用层等都能实现残缺隔离。

八大特点引领,星环科技湖仓一体平台赋能用户

那么星环科技的湖仓一体平台有什么特点呢?

云原生。基于云原生的架构,提供容器化的底座,能够依据业务负载主动弹性扩缩容,进步整体资源利用率。湖仓一体平台各组件采纳微服务架构设计,依照功能模块进行切分,在横向扩大以及版本更新方面都具备更高的灵活性。

多模态异构存储。星环科技提供一个多模型的数据管理平台,可能晋升场景的查问效率,针对同一份数据能够采纳多种数据模型寄存,解决不同场景的效率问题。

1 湖 N 仓多租户体系。面向集团型企业,能够提供 1 湖加 N 仓的多租户体系。在团体本部构建一个核心租户,在核心租户中建设团体级数据湖,梳理对立的数据资产目录,造成数据资产视图,同时面向团体层面业务剖析需要,建设团体级数据仓库。针对团体上司的业务部门、分子公司,或者一些数据翻新团队,可按需建设自有的租户,在租户内有独立的资源环境,有独立的一套数据开发平台和工具,能够通过共享对立数据湖的数据,建设面向本人业务和主题的数据仓库和数据集市,满足个性化的数据分析需要。

自主可控。自主可控次要体现在两个方面,对内,星环科技始终在保持技术创新,实现全面自主可控。对外,星环科技也在踊跃的和信创的上下游去做兼容适配,拥抱整个信创生态。

总体而言,星环科技湖仓一体平台的劣势包含多模存储、技术创新、批流协同、对立 SQL、弹性伸缩、信创自主、全栈工具、降本增效等 8 大劣势。

目前,星环科技湖仓一体解决方案曾经在金融、政府、交通、邮政、医疗、能源等行业以及局部大型国有企业落地利用,典型客户包含中化团体、中国邮政团体、广州农商行等。

正文完
 0