关于数据中台:基于Apache-doris怎么构建数据中台一-什么是数据中台

3次阅读

共计 4289 个字符,预计需要花费 11 分钟才能阅读完成。

这是数据中台系列的第一篇文章,次要论述数据中台概念,从技术和业务视觉看数据中台及数据中台要解决的问题

1. 什么是数据中台

数据是从业务零碎产生的,而业务零碎也须要数据分析的后果,那么是否能够把业务零碎的数据存储和计算能力抽离,由独自的数据处理平台提供存储和计算能力?这样不仅能够简化业务零碎的复杂性,还能够让各个系统采纳更适合的技术,专一做自身善于的事。这个专用的数据处理平台即数据中台。

数据中台是一个用技术连贯大数据计算存储能力,用业务连贯数据利用场景能力的平台。

“连贯能力”是数据中台的精华。作为一个处在中间层的能力平台,“连贯”是其根本任务。在业务层面须要尽可能连贯各种数据源作为其生产资料;同时,因为生产数据的场景越来越多,笼罩了线上线下等多渠道,各数据生产资料之间也须要进行连贯,能力造成全域的数据;数据在数据中台这个平台上依照规范的模型进行标准加工解决后须要服务于多种场景,同样须要咱们提供规范的数据服务接口将数据与利用场景连接起来。因而,连贯是数据中台的基本能力,也是数据中台的价值所在。

数据中台通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。

数据中台把数据对立之后,会造成规范数据,再进行存储,造成大数据资产层,进而为客户提供高效服务。这些服务跟企业的业务有较强关联性,是这个企业独有且能复用的

2. 数据中台解决什么问题

1、效率问题:为什么利用开发减少一个报表,就要十几天工夫?为什么不能实时取得用户举荐清单?当业务人员对数据产生一点疑难的时候,须要破费很长的工夫,后果发现是数据源的数据变了,最终影响上线工夫。

2、合作问题:当业务利用开发的时候,尽管和别的我的项目需要大抵差不多,但因为是别的项目组保护的,所以数据还是要本人再开发一遍。

3、能力问题:数据的解决和保护是一个绝对独立的技术,须要相当业余的人来实现,然而很多时候,咱们有一大把的利用开发人员,而数据开发人员很少。

3. 数据中台和数据仓库、数据平台的区别

1、数据中台是企业级的逻辑概念,体现企业 D2V(Data to Value)的能力,为业务提供服务的次要形式是数据 API;

2、数据仓库是一个绝对具体的性能概念,是存储和治理一个或多个主题数据的汇合,为业务提供服务的形式次要是剖析报表;

3、数据平台是在大数据根底上呈现的交融了结构化和非结构化数据的数据根底平台,为业务提供服务的形式次要是间接提供数据集;

4、数据中台间隔业务更近,为业务提供速度更快的服务;

5、数据仓库是为了反对治理决策分析,而数据中台则是将数据服务化之后提供给业务零碎,不仅限于剖析型场景,也实用于交易型场景;

6、数据中台能够建设在数据仓库和数据平台之上,是减速企业从数据到业务价值的过程的中间层。

4. 技术视觉的数据中台

数据从生产到利用的整体流程是任何一个数据从业者都绕不开的主题,即使是非数据畛域的产品和经营同学,同样也应该对业务中数据的流向有个初步的意识。要开展形容,咱们必须从数据的技术视角思考两个问题:

须要解决的问题是什么?
如何保障数据流中不同阶段的最优解?

4.1. 须要解决的问题是什么?

数据供应:提供便捷的数据生产计划,以数据产生为终点,标准数据整个主体的供应,为夯实数据平台的根底提供保障;
数据产出:保证数据在产出层面的广泛适用性。该阶段包含剖析报表,自动化剖析工具,查问入口等的建设;
过程治理:保证数据的完整性、准确性、时效性,实现数据从产生到利用全流程的高效治理。

4.2. 数据流的不同阶段如何解决

不同企业所处的业务倒退阶段不同,所面对的问题会不一样。同样,业务自身个性及企业对数据建设的资源歪斜水平不同,也会间接影响数据全流程解决的差别。最重要的还是立足于现状,站在更高的策略视角去思考整体的解决方案。上面从技术视角来看咱们数据中台做什么:

4.2.1 数据产生

数据产生,这个阶段是最适宜向业务方宣灌数据生产利用流程的阶段,因为该阶段的优劣将会间接影响之后的各环节。该阶段的关键字是数据标准录入,须要给数据上游的业务方提供可行的数据埋点标准。

4.2.2 数据采集

数据采集:这是最被动的一个环节,也是最出力不讨好的环节,最容易被甩锅和背锅的环节,

数据部门会提供给业务方不同场景下的模块日志采集计划清单,业务方只需依照现有清单抉择模块上报,数据部门会主动收集;

数据部门会提供模块日志注册零碎,造成良性注册机制,让数据部门提前感知,自动化收集模块数据。

4.2.3 数据处理

数据处理、荡涤是数据输出到仓库的前置阶段,该阶段最次要的是规定,目标是建设合乎业务须要的数据荡涤计划。比方什么格局的数据该被过滤;哪些用户是要被过滤掉等。

4.2.4 数据仓库

数据仓库面向利用而生,为了保证数据的广泛适用性及拓展性,会对仓库进行分层,通常分为:ODS、DW、DWS、ADS。常见数据仓库模型为“星型模型”,咱们在进行维度建模的时候会建一张事实表,这个事实表就是星型模型的核心,而后会有一堆维度表,这些维度表就是向外发散的星星。

4.2.5 数据计算

数据计算是数据变活的过程,次要分为离线和实时计算。会依照不同业务单元的须要,设计数据指标,并依照不同场景中的业务逻辑确定统计规定,最终由零碎实现例行计算。

4.2.6 数据利用

数据的利用是数据最终产生价值的局部,基于数据流后面的流程解决,该环节最终会提供给利用方业务报表、数据拜访、自动化工具、统计模型等利用;

在数据利用方面咱们该当关注的问题:

是否能提供欠缺的业务剖析指标体系,是否能提供欠缺的精细化经营工具;
现有数据是否足够撑持业务剖析,是否能根据现有数据发现更多的业务问题,是否能洞察潜在的商业机会

4.2.7 元数据管理

元数据管理贯通整个数据流程始终,是一个较为宽泛的概念,元数据治理的好坏将间接决定了整个数据平台的品质。元数据管理次要分为两局部:技术元数据、业务元数据

5. 业务视觉的数据中台

基于立场的不同,导致了从业务视角与从技术视角看到的体现层内容会不一样,但究其实质是相通的。无论数据在利用层面以何种计划最终出现,最终都是为了解决问题而存在,

为什么须要数据团队解决?
须要解决的问题是什么?
该通过什么形式解决?

5.1 为什么须要数据团队解决?

业务技术团队的定位是服务于业务一线,数据团队的定位是提供专业性的数据解决方案,二者分工上的差异性决定了解决问题的最佳门路。如下列举了须要数据团队解决几类问题:

数据类型:数据产生场景简单、数据类型多(订单、客户、商品,仓储,物流等),数据结构简单(结构化 / 非结构化 / 半结构化数据);
数据量级:存储量级大,传统关系型数据库不能解决;
数据处理:荡涤规定多,计算工作流程长,计算血缘关系简单等;
数据利用:行为剖析,多维穿插剖析,实时多维分析,丰盛的可视化等。

5.2 须要解决的问题是什么?

(1)业务是什么

不同业务单元根据本身业务属性,须要数据团队解决的数据问题也不一样。如市场团队关注利用市场投放相干的数据,客户端团队关注设施 / 利用版本 / 用户转化相干的属性数据,经营团队关注流动相干数据,风控团队关注风控相干数据等。

(2)如何掂量它们

团队属性的不同,也决定了量化到数据指标的掂量标注不同。各业务团队领有本人的要害惟一指标和对应拆解 / 下钻的指标体系。

(3)如何让数据驱动业务

市场团队通过掂量不同渠道起源用户的品质,评估渠道 ROI,优化投放策略;客户端团队通过观察不同产品计划的转化成果,改良注册及其他外围行为产生的主流程设计;经营团队通过用户细分,评估不同用户群在流动对的转化成果,进行精细化经营等。

5.3 通过什么形式解决?

以下从业务视角来看数据中台产品解决方案:

实时监控

专一于要害外围指标的实时体现,如客户、商品、订单,仓储,运输等。视具体情况会将要害指标维度下钻后进行实时监控

离线剖析

  • 外围看板:外围看板着重关注公司策略层外围指标在外围维度上的趋势及形成体现
  • 业务看板:业务看板服务于不同业务团队,亦可视作各业务单元的外围看板
  • 客户剖析及画像:客户形成、客户留存、客户转化、行为、生命周期等场景的剖析
  • 商品剖析:商品形成、库存、售出、品质、商品生命周期等场景的剖析

精细化经营工具

  • 留存剖析:依照留存模型,起始行为精分客户群体,根据精分客户群交易行为、频次、额度等的体现,观测各层客户的留存
  • 画像分群:依照不同主体拆分属性,通过属性组合,筛选指标分群,进行精细化经营
  • 交易剖析:剖析客户的订单行为
  • SQL 查问控制台:可视化 SQL 查问

预警及剖析

实时异样剖析:实时异样剖析基于历史数据,获取以后工夫点的可能数值范畴,当理论值在该范畴以外时,即认为数据异样。要害要求是及时和精确

智能剖析:具体策略是对要害外围指标进行维度拆解,寻找出影响外围指标稳定中不同维值的“贡献度”,最终定位问题

6. 平台建设目标

大数据时代的到来,让越来越多的企业看到了数据资产的价值。将数据视为企业的重要资产,曾经成为业界的一种共识,企业也在疾速摸索利用场景和商业模式,并开始建设技术平台。

为了解决企业业务在理论中存在的以下问题:

  • 各个业务数据反复开发节约存储与计算资源
  • 数据规范不对立,存在数据品质问题,数据应用老本高
  • 业务数据孤岛问题重大业务协同能力弱,数据利用效率低
  • 不足精准模型撑持,数据分析能力有余,数据利用价值不高
  • 基于四个对立,对立数据采集,对立数据处理,对立数据存储,对立数据服务,基于计算及存储基座,提供规范对立、可连贯萃取的数据中台,蕴含数据采集与研发、数据连贯与萃取、数据资产治理及对立数据服务,服务于下层业务,如经营剖析、消费者营销洞察等场景

在理论数据开发利用中存在,不知数据在什么中央,数据是什么意思,拿到一个报表怎么开发,数据怎么获取,最初数据怎么能疾速的可视化出现进去这五个难题,咱们建设这个数据中台就是要解决:找数据,了解数据、问题评估、取数及可视化展示这五个问题,整个平台的故事也是围绕这个五个点。从根本上解决:

  • 找数:数据从什么中央来到什么中央去,将数据和业务过程联合起来,实现数据的疾速查问
  • 了解数据:通过数据的血缘关系,数据关联关系及数据的阐明信息,让数据开发人员,业务人员疾速了解数据
  • 问题评估:数据分析人员拿到需要,能够通过该平台实现问题的主动评估,大大提高数据分析效率
  • 取数:用户能够不再关怀数据的起源,不再放心数据的一致性,不再依赖 RD 的排期开发。通过所选即所得的形式,满足了用户对业务外围指标的二次加工、报表和取数诉求
  • 数据可视化:依靠于咱们的 BI 可视化零碎和数据中台的买通,数据分析人员能够疾速的将数据中台创立的数据模型疾速的转换成可视化报表。

下一期咱们将数据中台建设的内容

正文完
 0