共计 1952 个字符,预计需要花费 5 分钟才能阅读完成。
标准设计在这里取《大数据之路:阿里巴巴大数据实际》中的定义,这里记录一下自己对这一块本人的了解。
标准定义指以维度建模作为实践根底 构建总线矩阵,划分和定义数据域、业务过程、维度、度量 原子指标、润饰类型、修饰词、工夫
周期、派生指标。
所谓的标准的定义,简略了解,如果把数据当作货物,那就是货物的分类,以及对应相干的属性,比方生产日期,某个原料的含量等,咱们能够把相近或者雷同货物,依照肯定的法则,放在一起,不便入库与出库,须要某个货物依照这些法则就能够,以比拟快的速度拉取出来。
个别的标准设计蕴含一下几个方面: 划分和定义数据域、业务过程、维度、度量 原子指标、润饰类型、修饰词、工夫周期、派生指标。
数据域 :指面向业务剖析,将业务过程或者维度进行形象的汇合。其中,业务过程能够概括为一个个不可拆分的行为事件,如买家下单事件,买家是维度。数据域须要形象提炼,并且长期保护和更新,不可轻易变动。划分数据域时,既要能涵盖以后所有的业务需要,又能在新业务进入时无影响地被蕴含进已有的数据域和扩大新的数据域。
业务过程 :指企业的业务流动,如下单、领取等,业务过程是一个不可拆分的行为事件。
工夫周期 :用来明确数据统计的工夫范畴或者工夫点,如最近 30 天、天然周、截至当日等。
润饰类型 :是对修饰词的一种形象划分。润饰类型从属于某个业务域,如日志域的拜访终端类型涵盖无线端、PC 端等修饰词。
度量 / 原子指标 :原子指标和度量含意雷同,基于某一个业务事件行为下的度量,是业务定义中不可再拆分的指标,具备明确业务含意的名词,如领取金额。
维度 :维度是度量的环境,用来反映业务的一类属性,这类属性的汇合形成一个维度,也能够称为实体对象。维度属于一个数据域,如天文维度、工夫维度。
维度属性 :维度属性隶属于一个维度,如天文维度外面的国家名称、国家 ID、省份名称等属于维度属性。
派生指标:派生指标 = 一个原子指标 + 多个修饰词(可选)+ 工夫周期。能够了解为对原子指标统计范畴的圈定。如原子指标:领取金额,最近 1 天海内买家领取金额则为派生指标(最近 1 天为工夫周期,海内为修饰词,买家作为维度,而不作为修饰词)。
这里说说对下面的了解,下面的定义,实际上就是对数据的分类,以及对指标统一口径,对立命名的过程。首先,咱们须要划分数据域,这个是业务过程的汇合,所以这个是对数据的一个大的分类,这个很重要,因为会影响到后续咱们的数据怎么开发和存储,以及咱们后续须要数据时,怎么查问,从哪里查问。
数据域是一个业务过程 + 维度的汇合,也就是咱们在建设标准定义的时候,须要先定义目前以及将来将有的业务过程,这个须要和业务一起定义探讨,因为这一块要贴近业务,个别的开发人员不够业务人员对业务了解深刻。确定好业务过程之后,再看看目前的业务过程有哪些维度,抽取进去,做好维度总线矩阵,保护好一致性维度。一个业务过程属于一个数据域,然而一个维度能够属于多个数据域。
定义好业务过程和维度之后,就要对业务过程和维度分类了,看看每一个数据域都有哪些内容,做好划分。
分类好了之后,就是确定,每一个业务过程,有哪些原子指标,以及对应的修饰词,工夫周期。
做好之后,再依据需要生成咱们想要的派生指标等,或者抽取一些数据宽表,用于数据分析,这样咱们就能够想要晓得某个数据,就能够通过数据域 -> 业务过程 -> 相应的物理表 -> 对应的指标,修饰词,工夫周期等,通过这个分类,定位到咱们的数据,这样也能够不便咱们后续对数据地图,数据资产的治理,这个就有点像是图书馆对图书的分类,想定义大类,再细分,图书是依据类目划分,咱们这里要依据业务行为过程,具体的业务划分。
下面的图是网络上某一个图书馆的图书分类,咱们能够留神到,每一个图书分类后面都有一个字母,这个是每一个类目标代码,用于图书的编码记录,这里咱们也是一样,须要对每一个数据域,也就是数据的分类,调配一个编码。这样用于表命名,最简略的就是作为前后缀,这样咱们就能够简略的通过表名晓得这个表是数据哪个数据域的,同样的情理咱们须要对下面提到的业务过程,维度,修饰词等取一个对立的编码,用于对后续数据开发过程中,表命名,字段命名等,这样咱们通过表名称,字段名称,就能够大略晓得这张表是什么数据。
这里举一个简略电商的例子,比方交易数据域(transaction),业务过程属于下单(order),领取金额(pay_amount), 工夫周期为最近 1 天(1d), 依照下面的逻辑就是表和字段的逻辑示意为 transaction_order.pay_amount_1d,这里为一个伪代码,帮忙理解,具体以独特的约定为准。
须要数据仓库材料能够点击这个支付数据仓库 (13) 大数据数仓经典最值得浏览书籍举荐
原文链接:https://zhuanlan.zhihu.com/p/…