关于数据中台:数据中台建设千万级的瀑布式和十万级的迭代式你会选择哪一个

7次阅读

共计 5997 个字符,预计需要花费 15 分钟才能阅读完成。

中台十年,再看已成桑田。

最后,为了解决互联网行业疾速倒退催生出的海量数据累积和碎片化问题,企业开始尝试将数据整合到一个地方平台,以进步数据的应用效率和管理水平,中台建设雏形初现。巨头领跑之下,从“大中台”到“拆中台”,再到“去中台”,中台仿佛曾经以极快的速度跑完了作为一个新的方法论从越炒越热到逐步落寞的毕生。

但中台的倒退果然要止步于此了吗?

一、中台「陷阱」:画皮不画骨的浅表模拟

为搭建中台,某制造业公司先后投入一年半的工夫和 6000 万元的资金老本。但这样一个消耗大量资源的“中台成品”,在理论运行中却施展的价值却未能达到预期。一方面是因为中台在搭建初期没有充分考虑到业务需要和数据品质问题,导致前期无奈对接业务;另一方面是因为中台的建设不足数据治理和数据品质保障,导致数据品质不牢靠,业务部门不违心应用。最终,中台被认定为一场“失败的投资”,投入老本无奈发出。
独一无二,某公司为了搭建中台,须要引进业余的技术人才进行反对和保护。然而,因为技术人才的稀缺性和昂扬的薪资要求,公司不得不将大量的资源投入到技术人才的招聘和培训上,导致其余部门的资源被迫压缩,业务倒退受到妨碍。中台的建设和运维也受到业余技术人才变动的制约,牵一发而动全身……

相似的“中台翻车”风闻还有很多,不同于初时的舆论一片向好,眼下提及“中台”,第一工夫更多会联想到资源投入过大、极其依赖业余技术支持、无奈及时验证成果、高风险等,这些多被诟病的问题。

事实上,对于中台的倒退与价值,在舆论层面和实际层面始终是存在割裂的——当中台实践被捧上“神坛”,塑造为解决企业所有数字化问题的“万能银弹”之时,虽一直有新的企业或从旁观望,或借鉴模拟,却始终未能在实践中失去宽泛且无效的复制,对中小企业而言尤是如此;但随同着中台实践的舆论性退热与“唱衰”渐起,反倒有越来越多的企业开始真正拨开迷雾,钻研起了中台建设在过渡营销的泡沫下,所覆盖的实质,也即“中台”的外围价值。

换言之,潮水退去,中台作为一个 IT 架构和企业组织模式改革理念,仍在一直优化和演进,而其真正具备积极意义与借鉴价值的内核,也正在逐渐露出真容。

借鉴核心思想,而非模式模拟

所谓溯本清源,在钻研“要不要建中台”这个问题之前,企业须要晓得本人真正谋求的指标是什么,想要通过中台解决什么问题。显然,答案不会是搭建一个海市蜃楼式的富丽中台,却因为无奈适配本身业务需要与组织架构而导致运行失败,最终不了了之——而这恰好是中台建设问题上,容易掉入的“美丽陷阱”——跟风下倾力打造的千万级数据中台,空余“形似”,而疏忽了中台建设的久远价值和战略意义。

脱离实际谈建设,都是耍流氓。

本末倒置搭建起的“伪中台”不仅不能真正解决数据孤岛的问题,也无奈施展中台所应具备的数据共享和数据协同的作用,更无奈为业务翻新和效率晋升带来实质性的奉献,一番折腾下来,只剩下传统中台的那些弊病形成的一地鸡毛,遂得出结论——“中台误我”——这口“锅”终归还是让中台背了。

而破题的要害就在于去粕存精——既然晓得陷阱在哪儿,那就绕开它,间接抓取并拆解中台实践的核心思想,跳过模式,实现实质上的变革。

那么,这里所说的“中台”的精髓又是指什么呢?

服务化:中台建设的灵魂

在答复这个问题之前,咱们得先弄清楚何中台的价值。

以批发行业为例,新批发时代以后,企业依靠电商平台与社交平台鼎力推动线上销售业务,社交电商及电商市场规模一直扩大。这些平台为批发行业提供了更多的营销和销售渠道,极大地丰盛了消费者的购物抉择和体验。同时,这也意味着批发企业须要整合更多渠道的客户、订单和库存等信息,以便更好地治理其业务并优化其供应链。面对这样的需要,中台首先能够作为一个数据中心,对内对接企业的订单治理、库存治理、供应链治理、财务管理等零碎;向外对接出现给消费者的购物车、领取、物流追踪、售后服务、客服等,通过集中整合治理各个渠道、零碎的数据,实现数据的一致性和准确性。一方面能够让消费者能够取得更加晦涩、便捷、高效的购物和售后体验,另一方面也为企业提供更精确、及时的数据分析和决策反对,进步外部经营效率,优化服务质量。其次,中台的灵活性和可扩展性也为企业提供了更大的自由度,从而依据业务需要进行定制化的开发和集成,帮忙企业更好地应答市场变动和一直变动的消费者需要。

以制造业背景为例,企业外部有很多零碎和业务场景,可分成两类:一类是外部应用的、不面向用户的零碎,像是 ERP、BPM、MES 等,这些零碎形成了企业的后盾;另一类则是面向用户的可视零碎,例如 CRM、渠道管理系统、客户服务核心等,这便是前台;而中台顾名思义,就是连贯后盾和前台,提供业务能力服务的平台,能够为企业提供数据、业务流程、资源调度等根底服务,让企业的前台零碎更加高效、智能化,晋升整体生产力和客户体验。

由此可见,数据中台实质上是一套联合互联网技术和行业个性的企业数据架构,通过将企业外围能力以共享服务的模式进行积淀,造成一个具备开放性、共享性、可扩展性、可复用性为次要特色的两头平台,用于整合和治理企业外部和内部各类扩散的数据和资源,为业务提供疾速的数据筹备能力,是为业务翻新赋能,进步业务翻新的效率的要害机制。中台的重要性正在于此。

当咱们理解了中台实践的作用原理,也就抓住了它的精华——服务化——其外围是将企业的外围数据进行积淀和转化,造成一组自带“万能插头”、可供内外部随时调用的服务。

于是,咱们得出了这样一条论断:数据中台实践合乎时代倒退诉求,对于谋求进一步转型降级或者降本增效的企业而言,依然具备无可替代的价值,但借鉴绝不是模式上的照搬,而是就地取材地“移植”——取其“服务化”精髓,去其“忽视危险、自觉投入”的糟粕。

既然动辄千万级的数据中台建设不可取,那么咱们又该如何在技术层面冲破传统枷锁,利用什么样的技术或工具,实现正当、低成本构建一个求实、业务价值导向的中台?这当中应用什么样的技术或工具呢?

二、由大化小,拆分迭代:从古代数据栈的崛起中看到的新思路

这就得先聊聊咱们在面向剖析畛域的数据技术路线变迁里看到的一些乏味变动。

目前,当企业心愿进步经营洞察,构建一个以数据分析为指标的数据平台时,有两个技术路线能够抉择:

一是以 Hadoop 技术生态为代表的大数据体系;

二是以 Snowflake、Fivetran、DBT 为代表的古代数据栈。

以下是对两种技术栈的一些剖析:

Big Data 的陨落

在传统的技术栈中,数据处理次要依赖于大数据技术,如 Hadoop、Spark 等,这些技术次要面向离线批处理,适宜对大量数据进行解决和剖析。然而,以后的互联网利用场景对数据处理提出了更高的实时性和交互性需要。

大数据正在逐步被时代倒退边缘化,其倒退在肯定水平上呈现了问题,其中比拟有代表性的几点包含:

  1. 长时间的设置和学习过程:建设和学习大数据系统须要大量的工夫和精力。从采集数据开始,到数据的荡涤、解决和存储,再到对数据进行剖析和利用,这个过程须要一直地调整和改良,使其适应一直变动的业务需要和市场趋势。
  2. 对新信息的响应迟缓:大数据分析系统通常须要在大量数据上运行模型和算法,以找到有用的信息和趋势。这个过程须要耗费大量的计算资源和工夫,所以它的响应速度绝对较慢,可能须要一段时间能力产生有意义的后果。
  3. 洞察的老本耗费较高:在大数据分析过程中,须要大量的技术和资源投入,包含硬件和软件的设施、人才的培训和招聘、以及数据的存储和解决等。这些老本很高,可能会让企业和组织在决定是否要投资大数据时感到犹豫和困惑。

很多大数据我的项目只能做到数据的收集和存储,但对数据的利用却无从下手。因而,只管有些我的项目在一两年的工夫内获得了肯定成绩,但往往也只能搁浅在这个阶段,无奈进一步推动。因为大数据技术栈宏大且简单,布局和人才装备须要大量的工夫和资源,且一旦须要调整或改变,投入的老本也十分高。

此外,历史数据的采集和存储对于大数据而言也是个辣手的问题。尽管历史数据在大数据分析中也存在价值,但对于许多业务场景来说,最有价值的数据通常是最新的这一部分。很多时候须要对这些数据进行实时收集和剖析,以便及时做出决策和调整。而大数据技术对于存储、计算和应用数据的老本都很高,相较于产生的价值来说,其代价切实是过高了。

因而,从 2018 年开始,大数据畛域的三大厂商 Cloudera、MapR 和 Hortonworks 相继被收买或合并。对于陷入瓶颈的大数据而言,倒退的颓势已是避无可避。

古代数据栈的升起

大数据的倒退现状正在督促咱们引入更加灵便的技术栈,古代数据技术栈(Modern Data Stack,MDS)的概念由此被提出,并取得越来越多的认可。其根底定义为:“因为云数据仓库的衰亡而呈现的一系列数据工具生态系统”。

翻译过去就是,将咱们数字化建设过程中所须要的工具拆分成各个模块,而后从问题登程,依据业务需要抉择须要的模块,而不是像过来那样,一口气建设一个大一统的数据平台或数据中台。古代数据栈通常联合了云数仓等云服务,并展现出如下几点要害特色和劣势:

  • 云原生、可托管:古代数据栈通常是云原生的,能够在云平台上构建和托管。这意味着能够随时减少或缩小计算和存储资源,并且能够灵便地扩大或放大规模。这种可托管的形式可能帮忙企业升高经营老本和管理负担。
  • 可组合、可插拔:古代数据栈的组件通常都是可组合和可插拔的。这意味着企业能够依据本身须要抉择和组合不同的组件来构建数据处理流程。这种灵活性可能帮忙企业疾速适应不同的业务需要和数据场景。
  • 迭代式:相较于传统的中台或大数据我的项目自上而下的开发方式,古代数据栈更偏向于采纳迭代式的形式进行构建和演进,具备麻利开发、轻量级和可扩大、开放性和组件化等差别,可能更快地响应业务需要和变动,并且可能通过继续集成和继续部署等形式实现疾速迭代和交付。
  • 自助服务:无需供应商染指即可实现自助选型,非技术专家也可能轻松地应用数据处理和剖析工具。这种自助服务的形式可能帮忙企业升高对技术人员的依赖,同时也可能更加疾速地实现业务需要。

从源头开始,数据会通过数据接入采集、加工解决和业务价值展示等步骤。古代数据栈据此提供了各种各样的工具,包含云上的数仓、集成的工具以及剖析工具等,能够帮忙企业在短时间内实现一个疾速的我的项目,工夫老本可压缩至周为单位,资金老本则可低至几千到几万元,甚至可能收费。

相比于传统的大数据技术栈,古代数据栈更加重视服务化。或者说,古代数据栈自身就是一种服务化的技术栈,同样强调面向全业务撑持和交互式业务,容许用户应用多种不同的工具和技术来治理和解决数据,旨在提供更加全面、灵便、高效的数据服务,更好地反对业务需要,帮忙企业更好地实现数字化转型。

古代数据栈的倒退模式下,企业如果能在正确的环节抉择正确的工具,则无异于为本身的数字化转型开了个事倍功半的好头。那么,如果咱们将这样的理念利用到咱们上文提到的面向全域业务的数据中台建设呢?

三、以古代数据栈理念来建设数据中台

首先,让咱们参照古代数据栈的逻辑,依照不同的功能模块对数据中台进行拆解。

数据中台通常蕴含蕴含以下几层架构:

  • 数据集成层:负责将不同数据源的数据整合到一起,并进行必要的数据荡涤和转换。
  • 数据存储层:负责将数据存储在对立的数据仓库中,并提供高效的数据查问和存储能力。
  • 数据开发层:为数据分析师和开发人员提供了一系列工具和平台,使其可能疾速地开发和部署数据分析利用和数据产品。
  • 数据治理层:负责管理和保护数据的元数据、规范、品质等,保证数据的正确性、一致性和可靠性。
  • 数据服务层:为企业外部不同的业务部门、数据分析师以及内部客户等提供数据服务,推动数据成为企业价值的重要组成部分。

这些模块分而治之,独特形成了一个可扩大、可保护的零碎,数据经由每一层流转,最终造成企业所需的高价值、可复用的宝贵资源。而在这个过程中,每一个或多步骤都能够有一个独立的工具或产品来实现。这就又波及到企业该如何选型的问题。

以下是针对不同环节的一些罕用计划或工具的列举:

  • 数据集成:Fivetran / Airbyte / Tapdata
  • 数据存储:Hive / MongoDB / Doris
  • 数据开发:DBT / Tapdata
  • 数据治理:Atlan / Informatica

这时,为了从源头上防止传统中台建设场景下常见的,因一次性投入过大却无奈实现预期指标的危险,企业能够采取迭代式推动的形式,逐渐实现数据中台的构建。

先依照理论需要,在综合思考包含企业规模、业务复杂度、零碎数量、反对业务场景的多少、业务价值、估算以及人力资源等在内的一系列因素的前提下,确定一个初步的数据中台架构计划。再依据这个计划,抉择一个或多个要害模块,进行搭建、测试和优化,并在这个根底上分阶段、逐渐建设数据中台的基础设施和数据资产。除了能无效升高投入产出危险,迭代式推动还能够让企业在整个搭建过程中一直积攒教训和常识,为将来的数据分析和业务翻新提供更加牢靠的反对。

上面咱们就来看看如何利用 Tapdata 实现这里的“第一步”,往往也是数据平台搭建最为要害和价值点最显著的一部分——买通数据,入仓。

四、Tapdata:服务化理念与古代技术栈的完满交融

Tapdata LDP(Live Data Platform),就是这样的“数据中台的服务化理念 + 古代技术栈模式”在产品层面的奇妙实现。作为一个自带实时数据复制能力的数据即服务平台,Tapdata 以无代码形式疾速连贯企业的数据孤岛,将数据实时集成到地方数据平台,造成可复用的规范数据模型,为多个上游交互式利用提供始终陈腐的数据。

Tapdata 解决的是所有数据场景的第一步:数据集成。然而与传统数据集成最大的不同点是,它提供了一个高速的数据缓存层:

加了缓存的 Tapdata,把传统的数据集成架构升级成了数据服务架构。具备以下几个长处:

  • 可复用:集成一次,可复用屡次,大幅度降低人力老本和进步数据集成效率
  • 基于高性能分布式 MongoDB,可间接提供高性能查问服务,无缝降级已有关系数据库的查问能力
  • 灵便模型存储,更容易轻松集成不同数据起源的不同构造的同一类数据

五、连贯 1 次孤岛,服务 N 个场景

较之每每导致“水土不服”的传统大型中台,这样一个更灵便、更高效、更经济、更实时的合乎古代数据栈理念的数据服务平台正是咱们始终在寻找的中台先进方法论“去粕存精”后的产物,能够切实可行地帮忙企业疾速实现数据的共享和替换,进步数据的应用效率,更好地服务于业务倒退。

值得注意的是,在搭建本身的数据服务平台时,企业应抉择通过充沛验证的平台工具,确保平台的安全性和稳定性。另外,企业也须要依据本身业务需要进行深刻的需要剖析,抉择适合的数据服务模块,推动服务化建设的疾速落地。针对不同规模企业的不同需要和估算,Tapdata 也提供定制化的产品 + 咨询服务计划。

原文链接

本文为阿里云原创内容,未经容许不得转载。

正文完
 0