关于数据:数据平台大数据平台数据中台……你确定能分得清吗

48次阅读

共计 4054 个字符,预计需要花费 11 分钟才能阅读完成。

造概念,在 IT 行业可不是一件生疏的事儿,中文博大精深,新名词、新概念往往简略精确,既能够被公众承受,又能够被专家把玩,真正做到雅俗共赏、各有趣味。近年来,数据中台之火爆,什么数据平台、数据中台、数据湖、数据集市等等,不同的叫法把大家绕的云里雾里,概念混淆不清,着实让人摸不着头脑……

正如咱们分明的晓得企业要进行数字化驱动架构之前,必须要建设对立的数据规范和标准,用对立的、大家都理解的语言形容一件事件是如许重要。同样的情理,在了解“大数据”“数据中台”相干常识之前,咱们有必要先将常遇到的包含数据仓库、数据集市、数仓湖、大数据平台、数据中台等概念一次性说清,以便在今后的学习与建设中可能分明的区别开来。

在答复上述问题之前,咱们先来看看数据中台应该怎么了解?阿里认为数据中台其三项外围能力别离为:OneModel 负责对立数据构建及治理,OneID 负责将外围商业因素资产化,OneService 负责向上提供对立的数据服务。

小编认为,数据中台的外围能力是数据能力的形象、共享与复用,两者对数据中台的定义看似差别微小,但仔细分析,相差无几。换言之,“形象”是为了达成“OneModel”、“共享”则是为了“OneID”、“复用”能力让“OneService”更有意义。

数字化经营不同阶段,经营伎俩各尽所能

随着大数据技术的不断更新与迭代,数据管理工具失去了飞速的倒退,从数据库、数据仓库、数据集市与数据湖,再到大数据平台与现在的数据中台,其实将它们比喻成一场“数据的旅程”就不难理解在数字化经营的不同阶段,各经营伎俩并不一定是谁代替了谁,精确的讲,它们都有本人的性能、特点所在,技术之间的互补,每个伎俩都各尽所能的为本人的用例服务。上面咱们就来简明扼要的演绎一下数字化经营不同阶段中各经营伎俩的性能与亮点。

1、数据库: 传统的关系型数据库的次要利用,次要是根本的、日常的事务处理,例如银行交易。

2、数据仓库: 数据仓库零碎的次要利用是 OLAP,反对简单的数据分析,偏重决策反对,并且提供直观易懂的查问后果,可做到业务的历史快照,总结性数据以及高纬度剖析。

3、数据集市: 能够了解为是一种 ” 小型数据仓库 ”,只蕴含单个主题,且关注范畴也非全局,数据从企业范畴的数据库、数据仓库中抽取进去,投合业余用户群体的非凡需要,其面向部门级业务或某一个特定的主题,良好地解决了灵活性和性能之间的矛盾。

4、数据湖: 存储企业各种各样原始数据的大型仓库,其中的数据可供存取、解决、剖析及传输,次要解决的是“看见数据”的问题,作为全局数据汇总及解决的一个外围性能,数据湖在数据中台建设中必不可少,除了为数据仓库提供原始数据之外,数据湖也能够间接为下层的数据利用提供服务。

5、大数据平台: 个性化、多样化数据,以解决海量数据存储、计算及流数据实时计算等场景为主的一套基础设施,应用大数据平台,企业能够比竞争对手更快地作出数据驱动的决策,更快地推出适应客户需要的产品。

6、数据中台: 咱们晓得所有对于数据工具的建设,其目标都是为了从数据中提取价值来反对更无效的数据经营,那么不能领导实际行动,发明理论价值的数据以及从数据中产生的常识是无用的,那花大价格来做这个零碎也没有必要。

说到底,数据工具的建设还是要以 ROI(Return On Investment)来反对,数据中台概念的呈现,很大水平上是原来的大数据系统建设的 ROI 不如人意,企业投入了大量的物力、财力和人力建设了大数据平台,却发现并没有给企业带来利用的价值,大数据平台更多的沦为“形象工程“,甚至产生了新的数据孤岛,更不用说实现数据能力的全局形象、复用和共享了,而数据中台能够说是为此类大数据平台了个“补丁”,其全局的数据仓库、大数据协调共享等能力,真正解决了反复开发、数据规范不对立、数据孤岛等问题,从而进步了数据价值实现效率和 ROI。

常见混同概念梳理:传统大数据平台、硅谷大数据平台、数据中台

其实,数字化经营不同阶段的经营伎俩相对来说是比拟好了解的,然而咱们经常能听到一些字面意思相近的概念,尤其是当咱们理解到原来在美国硅谷“中台”其实早已有之,只不过这种方法论在被引入到国内之后,被冠以“中台”之名时混同的概念经常让咱们手足无措。

那么,在硅谷所谓的“中台”叫什么?国外的大数据平台与国内的大数据平台又有什么区别?接下来就让咱们对立相干概念并梳理其关系,一次性说清让大家高深莫测。

1、大数据平台 1.0

大数据平台 1.0= 传统大数据平台

大数据平台 1.0 期间,其实就是咱们通常所看到的国内“传统大数据平台”的概念,此时的大数据平台是以解决海量数据存储、计算及流数据实时计算等场景为主的一套基础设施,以 Hadoop、Spark、Hive 等作为大数据根底能力层,在大数据组件上搭建包含数据分析,机器学习程序等 ETL 流水线,以及包含数据治理零碎、数据仓库零碎、数据可视化零碎等外围性能。

然而在大数据平台 1.0 期间,硬件投资与软件开发投入量微小,极大减少了研发的难度、调试部署的周期、运维的复杂度,且常常因为架构的缺点,数据利用开发运维的艰难,多租户资源隔离的复杂度等起因造成数据孤岛、利用孤岛的问题。

传统大数据平台

2、大数据平台 2.0

大数据平台 2.0= 新一代大数据平台 = 大数据平台 1.0+ 数据中台的性能 + 数据经营的性能

大数据平台 2.0 期间充沛诠释了硅谷“中台”早已有之的说法,但为什么硅谷没有“数据中台”概念?起因是硅谷公司从起步开始,管理层就将打造数据驱动须要的基础架构作为必须的功课之一,公司外部都有一个 Data Platform(数据平台)部门负责建设公司的数据平台,其大数据平台建设绝大多数是需要驱动,且后续倒退都是由这个大数据平台能产生多少价值来决定的。

也就是说,在硅谷大家其实也并没有刻意的去打造什么中台,然而“防止反复造轮子”“疾速迭代”“数据驱动”“业务驱动”是硅谷工程师文化的一些外围概念,也是硅谷高效翻新的一个外围,大部分公司在起始架构设计时,就将“数据中台”所包含的数据抽象、复用与共享的能力,以及一些数据经营的功能设计在内了,其建设目标是一样的,所以没有必要在概念上适度纠结。

3、数据中台

数据中台建设的指标可简略演绎为通过提供工具、流程和方法论,实现数据能力的形象、复用和共享,赋能业务部门,进步实现数据价值的效率。阿里提出数据中台的概念,只是为了强调和国内现有的大数据平台加以区别,强调解决数据孤岛、反复开发的问题,突出数据共享和复用的概念。

深刻探索:数据中台与 Ta 的关系

想必当初你曾经从傻傻分不清的状态中走进去,接下来,咱们再深刻具体地理解下数据中台与之绝对应的关系,看看你是不是曾经熟能生巧的把握了相干概念呢?

数据中台与传统数据仓库、数据集市、数据湖的关系

数据仓库与数据集市的呈现,就是为了解决信息化阶段 OLTP(联机事务处理过程)在剖析场景下的局限性,它们将 OLTP 中的数据采集过去,做成面向历史、主题、剖析的一些数据集,从而能够轻松地做出 OLTP 难以做出的剖析。

然而,随着互联网时代的到来,数据仓库的数据起源只在业务零碎性能中,提供一些汇聚的业务信息,无奈提供个性化的信息以及一些非传统业务数据源的信息。另外,一些非传统业务数据源的信息个别存储在服务器日志中,那么大量且有效的数据如果都存储到数据仓库中,其效率之低和限度是无奈设想的。

此时,数据湖和大数据平台的呈现扭转了上述场面,在这个阶段的数据仓库和数据集市,则基于大数据技术获得了进化,也就是说数据仓库不能解决的问题,咱们用大数据数仓(基于大数据技术实现的数据仓库)来解决,大数据数仓解决不了的,咱们用大数据平台来解决,大数据平台解决不了的问题,就须要数据中台来解决。

应该说数据中台是建设在数据仓库和数据平台之上的,让业务部门能够更好,更有效率的应用数据的经营管理层,并强调从工具和机制上反对对数据能力的形象、共享和复用。

数据中台与大数据平台 1.0、2.0 的关系

很多人会纳闷大数据平台 1.0 与数据中台的差异在哪里呢?其实,两者的建设目标都是挖掘数据价值,高效实现数字化经营,区别则在于数据中台是具备业务属性的,输出的是原始数据,输入的是业务部门能够间接应用的数据能力。如果必须要将数据中台和大数据平台 1.0 辨别开来, 能够说数据中台是建设在大数据平台 1.0 的根底层之上,强调提供相应的工具和机制来实现数据能力的全局形象、共享和复用。

在国内,为什么很多企业面临着数据孤岛与利用孤岛的困局?而在硅谷,大多数企业并没有数据孤岛、利用孤岛的懊恼?因为硅谷每个公司在建设大数据平台的时候,大数据平台的经营效率和应用效率,都是必须要思考的关键问题。在起始架构设计与后续迭代的时候,如何最大化投入产出比,并让业务部门真正施展数据的作用都是关键所在。在这个过程中,也有很多的尝试和迭代,然而最终的后果是, 绝大部分的大数据平台天然的就会提供所谓的“数据中台”的性能,成为公司外部的一个外围价值驱动引擎。

大数据平台 1.0 与 2.0 关系图

而大数据平台 2.0 作为新一代大数据平台,则是在大数据平台 1.0 根底上,减少了数据中台的性能,以及数据经营的性能。对于“各个部门数据反复开发,节约存储与计算资源”、“数据规范不对立,数据应用老本高”、“业务数据孤岛问题重大,数据利用效率低”,这些须要在大数据平台 1.0 阶段解决的问题,并没有在国内企业的大数据平台阶段失去思考和解决。因而,须要一个新的平台来为这个大数据平台“打补丁”,而这个新平台,就是所谓的“数据中台”。

总结

本文从数字化经营不同阶段对数据仓库、数据湖、大数据平台、数据中台等外延作了具体阐明,便于读者更好的了解和把握数据畛域相干概念,并帮忙大家更好地理解大数据带给咱们的能力与作用。须要强调的是,除了理解数据中台的概念外,其方法论更为重要,数据中台建设为咱们企业数据服务和共享奠定了重要的根底,是企业从“数据”迈向“价值”的弱小助推器。

本文起源:智领云科技

点击关注,第一工夫理解华为云陈腐技术~

正文完
 0