简介:数据中台是传统的数据仓库的一种降级, 是数据采集、建设、治理与应用的一整套体系,Dataphin 是一个构建数据中台的弱小工具, 外围劣势是在数据的建设与治理上引入了阿里巴巴多年来数据中台建设积淀出的 OneModel 方法论。
前言
数据中台是当下大数据畛域最前沿的数据建设体系, 它并不是从零开始, 无中生有的。数据中台是传统的数据仓库的一种降级, 是数据采集、建设、治理与应用的一整套体系。Dataphin 是一个构建数据中台的弱小工具, 外围劣势是在数据的建设与治理上引入了阿里巴巴多年来数据中台建设积淀出的 OneModel 方法论(OneData 体系的组成部分之一)。本篇主讲 Dataphin 外围性能布局的设计理念。
OneModel
OneModel 将数据中台的建设分成四层:
- 主题域建模 :在数据中台, 主题对应一个宏观的剖析畛域, 比方销售剖析就是剖析 ” 销售 ” 这个主题. 分割较为严密的主题的汇合就是主题域. 每一个行业都能够拆分为有多个(十个左右不等) 主题域组成的主题域模型。
- 概念建模:在主题域的根底上, 每个主题域内减少了实体以及实体之间的关系。
- 逻辑建模:在概念模型的根底上, 减少每个实体的属性以及属性的束缚。
- 业务剖析建模:行业中重要的以及罕用的分析方法与剖析视角. 在逻辑模型根底上, 将业务剖析问题转换为 Dataphin 特有的派生指标, 并进一步提炼出原子指标和业务限定。
布局
OneModel 四层中的主题域建模和概念建模由 Dataphin 的布局性能来承载实现。OneModel 的四层不针对企业级数据中台, 而是围绕单个独立业务来开展的, 多个独立业务通过公共的维度来实现企业级数据中台。因而, Dataphin 的布局性能还包含独立业务的划分, 即业务板块的划分。布局并不会影响数据的准确性与产出时效, 而是一个重要的面向数据 (资产) 治理的性能, 会影响数据的查找, 了解与权限管控等多方面。
业务板块
企业的规模有大有小, 业务复杂度和跨度也不同, 数据反映业务, 所以每个企业的数据中台也是不同的。数据中台建设的第一步是做布局, 布局的第一步是全盘梳理企业的业务架构, 将业务划分为一个个独立业务, 在 Dataphin 外面就是业务板块的划分。
业务板块的划分总准则是, 高内聚, 低耦合, 具体的流程如下:
- 考查企业的所有的业务流程, 如果两个业务流程之间存在上下游的关系, 或者有独特的业务对象, 那么他们就应该被放到同一个业务板块。比方, 洽购流程 (洽购单) 完结后, 个别会有物流 (企业的进货物流) 这个流程. 物流是依赖洽购的, 同时货品是两个流程独特的业务对象, 因而, 洽购和物流就该当属于同一个业务板块. 将范畴扩充, 列举出每个业务流程的上下游和业务对象, 间接或者间接的连贯在一起的业务流程该当属于同一个业务板块. 举例: 批发业务中, 洽购 -> 洽购物流 -> 仓储 -> 销售发货, 营销 -> 销售 -> 履约 -> 售后等, 有的有上下游的关系, 有的能够通过货品连贯到一起, 他们就属于”批发”这一业务板块。
- 反之, 如果两个业务流程之间不存在任何间接或者间接的上下游关系, 也没有间接或者间接独特的业务对象, 他们就不该当被放在同一个业务板块。举例: 同一个企业下, 可能有批发和地产. 地产业务中, 拿地 -> 设计 -> 开发 -> 销售等流程与批发的业务流程之间不存在上下游的关系, 也没法通过某个业务对象连接到一起, 该当别离创立“批发”“地产”两个业务板块。
- 值得注意的是, 某些业务对象是企业级共用的, 比方, 公司的员工, 行政地理区划 (没错, 这个也属于业务对象) 等, 这些会将整个公司的所有的业务流程连贯到一个微小的繁多网络中。因而, 先要辨认出这些企业级的业务对象, 对于只通过这些业务对象连接在一起(而没有上下游关系) 的业务流程, 须要剪断这种连贯, 将他们归属到不同的业务板块。
主题域建模
主题域建模, 即在业务板块下进一步将业务划分为多个主题域。主题域的划分没有主观准则, 次要依据数据模型师的行业教训与业务了解来划分。具体以批发行业为例来阐明。
批发行业的主题域划分如下图, 外围主题域为 ” 人 ”、” 货 ”、” 场 ”:
- 公共主题域:在所有业务流程中都会被援用的数据, 如, 地理位置数据, 企业的人员组织数据
- 消费者 (人) 主题域:该主题域次要是批发企业内用户 (消费者) 经营相干的业务流动数据
- 商品 (货) 主题域:商品的治理 (类目治理, 品牌治理等), 商品构造治理(组货) 等相干的业务流动数据
- 商家 (场) 主题域:蕴含线下门店, 线上电商 (自营或者第三方) 等售卖渠道相干的数据
- 流量主题域:消费者拜访店铺等相干的数据
- 交易主题域:蕴含销售订单, 领取, 退款退货等零售商与消费者之间契约模式的信息流与资金流数据
- 履约主题域:可选. 零售商依照契约 (订单) 将商品配送给消费者, 是零售商到消费者的物流数据
- 服务主题域:次要是售后等数据
- 交互主题域:可选. 零售商与消费者之间非契约模式信息流数据. 如零售商在社交媒体上与消费者的互动, 消费者在电商平台内的评论, 分享与珍藏等
- 营销主题域:广告, 流动, 优惠券等数据
- 内容主题域:可选. 零售商以引流为目标所建设的内容, 比方, 商业软文, 直播带货, 宣传刊物等
- 供应链主题域:零售商与供应商之间的三流, 以及零售商外部的物流与信息流数据
概念建模
在主题域模型根底上, 将每个主题域内的实体以及实体之间的关系构建进去的模型就是概念模型。
概念模型中有如下名词:
- 实体:业务中的业务对象或者业务流动在数据世界的投射, 实体个别与数据表一一对应。某几个实体可能具备雷同的特色(体现为有很多雷同的属性), 这几个实体能够形象泛化为泛化实体, 泛化实体没有对应的数据表。
- 业务对象:一种实体, 是参加业务的人和物品, 也能够是纯正的概念。比方: 消费者 (人), 商品(物品), 类目(概念) 等. 在 Dataphin 的某些版本中, 业务对象又被称为 ” 维度 ”。
- 业务流动:一种实体, 业务对象的变动行为或业务对象之间交互行为。比方: 拜访行为, 销售行为等. 在 Dataphin 的某些版本中, 业务流动又被称为 ” 业务过程 ”。
- 实体关系:实体之间的关系, 次要有两种
a. 一是援用关系, 某一个实体是另一个实体的属性, 比方, 用户实体中用户有地址这个属性, 而地址自身也是一个实体, 那么用户实体就援用了地址实体; 再比方, 订单实体中, 买家, 卖家, 商品都是订单的参加实体, 订单实体援用了买家实体, 卖家实体, 商品实体。从技术角度来说, 援用就是 SQL 中的 ” 关联 ”。援用关系又有三种类型, 一对一、一对多和多对多, 示意有援用关系的两个实体的实例 (记录) 之间的数量关系。
b. 二是继承关系, 某一个实体 A 从属于另一个实体 B, 在概念上 A 比 B 更细化具体。比方, 在批发业务中, 能够定义一个实体为 ” 用户 ”, “ 买家 ” 与 ” 会员 ” 都是用户, 然而更加具体(买家是有过交易的用户, 会员是参加了会员我的项目的用户), “ 买家 ” 实体, “ 会员 ” 实体继承了 ” 用户 ” 实体。
以上就是 Dataphin 的外围性能布局背地的设计理念, 心愿能帮忙您更好的应用 Dataphin 布局性能。
版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。