契机
在为某客户提供咨询服务的过程中,客户提出了心愿将肯定业务范围内共用的数据进行抽离与积淀,使该局部的数据标准化、共享化。有教训的同学会比拟敏锐的捕捉到客户遇见了”数据孤岛“问题。这类问题在 90% 的企业中,都是绕不开的一座大山,或早或晚。它与其余两座大山 - 业务孤岛、组织孤岛独特”助力“企业实现“信息孤岛”。
通过与 Account Owner 以及客户的一些简略沟通后,发现企业曾经基于“数据中台”的概念实际了一些浅层数据治理工作。“数据中台”同样可能实现数据标准化与共享化,但其实现的数据共享化实质是“数据价值”的共享,即通过若干数据挖掘伎俩将数据价值提炼,为业务提供价值共享服务。而客户关注的,是针对“数据状态“进行治理和生产的能力的共享。这里也就引出了”主数据“的概念。
当咱们在聊主数据时候,聊的是什么?
我尝试和敌人们探讨过“主数据“是什么。- 根底数据、共享数据集、MDM 零碎、ETL 等词汇层出不穷。
收敛一下,这些词汇都形容了主数据的某一个性或技术手段。看看一些规范是如何形容它的。
《DMBOK2.0》
Master Data is“the data that provides the context for business activity data in the form
of common and abstract concepts that relate to the activity. It includes the details (definitions and identifiers) of
internal and external objects involved in business transactions, such as customers, products, employees,
vendors, and controlled domains (code values)”(DAMA, 2009)
《数据资产治理实际白皮书(5.0 版)》
主数据(Master Data)是指用来形容企业外围业务实体的数据,是逾越各个业务部门和 零碎的、高价值的根底数据。
《华为数据之道》
主数据是参加业务事件的主体或资源,是具备高业务价值的跨流程和跨零碎重复使用的数据。
可见,“主数据”是在形容一种非凡的数据资产汇合。
如何定义
想定义某个概念,咱们须要先摸索该概念之所以须要被利用的驱动因素,通过驱动因素辨认概念所具备的行为,从而进行定义。
驱动因素
- 满足组织的数据需要:多个组织多个业务畛域须要拜访雷同数据集,并且他们都置信这些数据集是高价值的、最新的、统一的。
- 治理数据品质:因为数据的不统一、品质问题和差别,导致决策谬误和丢失机会。
- 升高数据集成老本:因为没有指标数据集,新数据源集成进一个很简单的环境中老本会高很多,这减少了因对要害实体的定义和辨认形式的变动而产生的额定老本。
- 升高危险:同样在简单集成环境中,没有一份繁多的稳固的要害数据,可能会导致各数据源信息传递的过程中产生信息失落或信息失真等问题,从而减少业务危险。
定义主数据
主数据是在企业中
被多个组织多个业务畛域共享的;
繁多可信的;
高价值的;
绝对稳固不会常常产生变更的
数据汇合。
如何辨认
企业中的数据状况可能异样简单,这外面有因为业务简单导致的数据类型多的状况,也有因为业务量级导致的数据量级大的状况。量级大以致数据处理技术简单,类型多以致数据常识负载大。
辨认主数据,咱们须要将关注点放在如何在大量的数据常识中找到主数据对应的常识。
关注点拆散,咱们先将企业的数据做一个竖向与横向的拆散。竖向拆散的是企业数据分类,横向拆散的是企业数据分级。
竖向拆散
Malcolm Chisholm 提出过一种企业数据分类模型:
这种分类办法比方下几种常见的分类形式更粗疏与准确:
- 交易数据、主数据和剖析数据
- 交易数据、主数据和元数据
其中,主数据被认为是参考数据、企业构造数据、交易(事务)构造数据的集合体。
横向拆散
参照以往数据教训以及华为对于企业数据资产目录的分层定义,咱们能够将数据分层定义成 5 个级别:
整体视图
将数据分级与数据分类联合造成整体视图后,咱们发现主数据能够通过如下步骤进行辨认:
- 先针对指标企业的数据分级进行辨认;
- 专一于某一主题域下,辨认该畛域下有哪些业务对象;
- 剖析获取的业务对象中有哪些属于参考数据、企业构造数据、交易(事务)构造数据,从而找出主题域下的主数据。
结语
后续会持续形容主数据相干的其余内容:如何建设、如何治理、如何演进等主题。
参考文献:
【1】《DAMA-DMBOK2.0》
【2】《数据资产治理实际白皮书(5.0 版)》
【3】《华为数据之道》