关于数据:数据治理聊聊数据血缘

数据血缘关系，从概念来讲很好了解，即数据的全生命周期中，数据与数据之间会造成多种多样的关系，这些关系与人类的血缘关系相似，所以被称作数据的血缘关系。

从技术角度来讲，数据 a 通过 ETL 解决生成了数据 b，那么，咱们会说，数据 a 与数据 b 具备血缘关系。不过与人类的血缘关系略有不同，数据血缘关系还具备一些个性化的特色。

● 归属性

数据是被特定组织或集体领有所有权的，领有数据的组织或集体具备数据的使用权，实现营销、危险管制等目标。

● 多源性

这个个性与人类的血缘关系有实质上的差别，同一个数据能够有多个起源（即多个父亲），起源包含，数据是由多个数据加工生成，或者由多种加工形式或加工步骤生成。

● 可追溯

数据的血缘关系体现了数据的全生命周期，从数据生成到废除的整个过程，均可追溯。

● 层次性

数据的血缘关系是具备层级关系的，就如同传统关系型数据库中，用户是级别最高的，之后顺次是数据库、表、字段，他们自上而下，一个用户领有多个数据库，一个数据库中存储着多张表，而一张表中有多个字段。它们有机地联合在一起，造成残缺的数据血缘关系。

如下图中某学校学生管理系统后盾数据库的 ER 图示例，学生的学号、姓名、性别、出生日期、年级、班级等字段组成了学生信息表，学生信息表、老师信息表、选课表之间通过一个或多个关联字段组成了整个学生管理系统后盾的数据库。

不论是结构化数据，还是非结构化数据，都具备数据血缘关系，他们的血缘关系或简略间接，或盘根错节，都是能够通过迷信的办法追溯的。

以某银行财务指标为例，利息净收入的计算公式为利息收入减去利息支出，而利息收入又能够拆分为对客业务利息收入、资本市场业务利息收入和其余业务利息收入，对客业务利息收入又能够细分为信贷业务利息收入和其余业务利息收入，信贷业务利息收入还能够细分为多个业务条线和业务板块的利息收入。

如此细分上来，始终能够从财务指标追溯到原始业务数据，如，客户加权均匀贷款利率和新发放贷款余额。如果利息净收入指标发现数据品质问题，其根因能够通过下图高深莫测发现。

数据血统追溯不只体现在指标计算上，同样能够利用到数据集的血统剖析上。不论是数据字段、数据表，还是数据库，都有可能与其余数据集存在着血缘关系，剖析血缘关系对数据品质晋升有帮忙的同时，对数据价值评估、数据品质评估以及后续对数据生命周期治理也有较大的帮忙和进步。

从数据价值评估角度来看

通过对数据血缘关系的梳理，咱们不难发现，数据的拥有者和使用者，简略地来看，在数据拥有者较少且使用者（数据需求方）较多时，数据的价值较高。在数据流转中，对最终目标数据影响较大的数据源价值绝对较高。同样，更新、变动频率较高的数据源，个别状况下，也在指标数据的计算、汇总中施展着更高的作用，那能够判断为这部分数据源具备较高的价值。

从数据品质评估角度来看

从数据品质评估角度来看，清晰的数据源和加工解决办法，能够明确每个节点数据品质的好坏。

从数据生命周期治理角度来看

数据的血缘关系有助于咱们判断数据的生命周期，是数据的归档和销毁操作的参考。

思考到数据血统的重要性和个性，以一般来讲，咱们在血统剖析时，会关注利用（零碎）级、程序级、字段级三个档次间数据间的关系。比拟常见的是，数据通过零碎间的接口进行替换和传输。

例如下图，银行业务零碎中的数据，由对立数据交换平台进行流转分发给传统关系型数据库和非关系型大数据平台，数据仓库和大数据平台汇总后，交换各个利用集市剖析应用。其中波及大量的数据处理和数据交换工作：

在剖析其中的血缘关系时，次要思考以下几个方面：

1. 全面性

如上图所示，数据处理过程实际上是程序对数据进行传递、运算演绎和归档的过程，即便归档的数据也有可能通过其余形式影响零碎的后果或流转到其余零碎中。为了确保数据流跟踪的连贯性，必须将整个零碎集作为剖析的对象。

2. 动态分析法

本办法的劣势是，防止受人为因素的影响，精度不受文档形容的具体水平、测试案例和抽样数据的影响，本办法基于编译原理，通过对源代码进行扫描和语法分析，以及对程序逻辑波及的门路进行动态剖析和列举，实现对数据流转的主观反映。

3. 接触感化式分析法

通过对数据传输和映射相干的程序命令进行筛选，获取要害信息，进行深度剖析。

4. 逻辑时序性分析法

为防止冗余信息的烦扰，依据程序处理流程，将与数据库、文件、通信接口数据字段没有间接关系的传递和映射的间接过程和程序中间变量，转换为数据库、文件、通信接口数据字段之间的间接传递和映射。

5. 及时性

为了确保数据字段关联关系信息的可用性和及时性，必须确保查问版本更新与数据字段关联信息的同步，在整个零碎范畴内做到“所见即所得”。

一般来说，数据血统的用处次要体现以下几个方面：

合规需要，这是监管部门的需要，为了监管合规，数据流动的各点和起源，都是重点须要监管的。

影响剖析和品质问题剖析，这个数据开发部们的外围需要，随着数据利用越来越多，数据的流动链越来越长，一个源头的外围业务的改变，上游各剖析利用必须放弃同步，没有影响剖析，就会各个数据服务造成异样拜访的状况。

数据安全和隐衷，这个是数据合规部门的需要，哪些数据是须要脱敏的，这个要放弃全流通所有域的管控。

迁徙我的项目，这个呈现在特定老我的项目终止须要新我的项目接管的状况下，没有数据流动映射表，就会大量花工夫去整顿，也很难保障迁徙的完整性和正确性。

自服务剖析，数据分析团队为了确定数据可信水平，那么数据的起源是数据可信的重要依据。

数据血统零碎的构建和保护是一个较重的系统工程，其是数据治理工作中的流沙之地，不小心会陷入这个坑之中，尤其是技术完满人格类型的负责人，这是因为数据血统的工作须要思考的因素很多。

为了最大水平升高我的项目失败的危险，咱们须要思考数据血统的服务用户对象，确定业务方面和技术方面的血统优先，须要思考到细节水平，覆盖率，变动频率，同时还要思考人员流动，组织部门，技术架构等状况，制订最适宜咱们本人的策略。

数据血统的收集办法次要有以下几种：

主动解析

主动解析以后次要的收集办法，具体就是解析 SQL 语句，存储过程，ETL 过程等文件。因为简单代码和应用环境等起因，依据国内厂商的教训，主动解析能够笼罩到企业数据的 70-95%，目前无奈做到 100%，因而患有技术洁癖的负责人容易犯下这个谬误，即谋求极高的覆盖率。

零碎跟踪

这个办法就是通过数据加工流动过程中，加工主体工具负责发送数据映射，这样做的极大益处是收集精准，及时，细粒度可反对，不过限度就是不是每个工具都能够集成。这种办法个别鉴于对立的加工平台，比方 Informatica 能够治理本人的全数据血统周期。

机器学习办法

这个办法是基于数据集之间的依赖关系，计算数据的类似度。这个办法的益处是对工具和业务没有依赖，毛病准确率须要人工确认，个别能够做到 3 - 8 的数据能够剖析发现。

手工的收集

在整个我的项目中，个别有 5% 是须要手工来做的。

目前的数据血统大多是基于技术的梳理，个别服务技术人员的需要。随着数据服务走向前台，服务业务剖析和 CDO 的业务数据血统，目前曾经有相干产品，通过数据的语义剖析，将技术元数据映射到业务元数据上，将血统以业务流程形式公布共享进去，辅助商务决策，这是将来的倒退方向之一。