关于数据:数据治理质量保障研究

6次阅读

共计 4605 个字符,预计需要花费 12 分钟才能阅读完成。

摘要

家喻户晓,大数据技术将关上各行各业的数据魔盒,从金融、电商、医疗、能源到制造业,都致力于从大数据中开掘价值。而数据治理是实现大数据策略的根底,通过数据治理晋升数据价值能力保障最终大数据分析的准确性。目前国内外有很多对于数据治理的实践和办法。大部分的实践和办法都会围绕数据品质治理开展。数据治理的过程中须要跟踪评估数据品质。本文重点论述用友在数据全生命周期中数据品质保障的方法。

企业在日常生产建设经营过程中产生与存储的数据量极其宏大,获取数据的起源也很多,为了不便企业数据的整合剖析,首先要保障企业数据的品质并对企业数据的品质放弃监控。用友对数据品质的监控往往是贯通数据的整个生命周期。评估数据品质的指标包含:数据真实性、数据准确性、数据唯一性、数据完整性、数据一致性、数据关联性、数据及时性(见附录)。

1 数据品质治理

在打算对企业数据进行数据治理时,应充分考虑业务理论需要,进行业务剖析,制订数据规范体系,再确保数据采集、存储、治理与交付各个环节的数据品质。

                             图 1 数据品质保障流程

2 数据品质治理的根底 - 业务剖析

企业生产经营过程中,对业务进行解构、梳理与剖析是十分必要的。业务需要不清晰,例如:业务形容、业务规定不清晰,会导致技术无奈通过业务构建出正当、正确的数据模型。后期依据业务整顿数据范畴、数据维度以及数据关系,并根据数据整顿的后果制订企业级别的数据规范体系会帮忙企业清晰的形容与标准数据。

2.1 确认数据范畴

数据激增是当今社会的一大个性,企业会从不同的路径挖掘出大量的业务相干数据,蕴含结构化数据、非结构化数据(文件)与半结构化数据(模型)。在数据治理前,首先要对业务划分,确定数据治理的范畴。例如银行对公业务数据治理,银行对集体业务数据治理等等。

2.2 统计数据维度

在整顿数据维度时,往往能够从多个不同的维度对数据进行划分。例如:依据数据的产生阶段,能够把生产线数据分为设计数据、洽购数据以及制作数据;依据数据的用处,能够把实时数据能够分为属性形容、流动记录与信息统计;依据数据形容的对象,能够将交易数据分为用户数据、行为数据与产品数据等。

2.3 剖析数据关系

企业数据形容了各种各样的业务场景,业务场景与场景之间存在关联关系。因而在通常状况下,数据与数据之间总会存在肯定的关联关系。例如:业务场景中会形容一系列数据关系模型,通过预设的多种关系(包含隶属、连贯等)使生产流动中的各类事物(包含物理、流动、事件等)互相关联,造成一张数据网络图,从而为数据分析与数据智能交付的实现提供了更加便当的条件。

3 根据业务需要构建规范体系

通过对理论业务进行剖析,企业将会失去较为清晰精确的数据范畴、数据维度以及数据之间的关系,而在此基础上,企业则须要通过制订欠缺的规范体系对数据的品质以及合规性进行治理,从而可能更好的施展数据的潜在价值,还能防止因需要变更导致数据模型设计、数据录入、数据采集、数据传输、数据装载、数据存储等环节受到的影响。规范体系应笼罩数据的全生命周期,从数据采集、存储、交付、治理、利用等方面进行规范化定义。一方面,规范体系的标准可能保证数据自身的精确水平,另一方面,通过执行对立的规范体系,企业各部门之间的数据壁垒将被买通,数据流动将更为晦涩。

为了更好的保障数据品质,往往须要构建采集规范、编码标准、孪生体规范等一系列规范。而在利用规范体系时,规范的多样性与可扩展性是须要分外留神的局部。

3.1 规范的多样性

规范体系,最重要的目标在于制订符合实际业务场景的规范化定义。而因为业务场景自身的多样性,相应的规范也会更加丰盛。随着业务类型的减少与原有业务范围的不断扩大,企业会不断丰富已有的规范体系,对越来越多的业务数据做出定义。

3.2 规范的可扩展性

随着企业业务的倒退,相应的数据规范也将发生变化,因而,企业须要针对过期规范进行订正、扩大或者作废。在此过程中,要分外留神规范体系的变动对数据治理过程的影响,在治理初期应制订管制规范版本的规定,包含规范的数据定义、规范的计算维度、规范的统计口径等。在进行规范改变时,应答随之带来的数据荡涤规定执行严格的审核流程,保障上下游数据接口的稳定性。

4 数据采集

数据采集往往是产生数据品质问题的突出环节,采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,会导致数据采集失败、数据失落、数据映射和转换失败。采集是原始数据标准化和资产化的第一步,采集过程的规范性在很大水平上决定了最终的数据品质。对于数据采集、编码和关联关系的规范化有助于升高数据荡涤交融的难度,为数据入库、存储、剖析和交付奠定根底。

4.1 基于规范的采集

为了进步采集品质,须要将采集规范纳入采集流动的后期要求中。采集规范须要具体规定要采集的数据对象、计量单位、对象属性、非结构化数据以及关联关系、半结构化数据以及关联关系。

4.2 基于规范的编码

数据在其全生命周期中,为了保障交付过程的流畅性,往往须要采纳对立的编码规定,规定了采集数据在采集时,应依照此标准规定的对象代码、属性代码、非结构化数据代码以及半结构化数据代码生成数据编码,并作为编码属性同属性一起存储起来。

4.3 基于规范的关系开掘

通常状况下,在理论业务场景中会存在各种各样的业务关系,对应的业务数据之间也存在一系列的关系。例如:在工业中存在三种常见的数据关系,包含工业设施(如焊缝、阀门等)分类层级构造关系(如线路对象类 - 管道本体 - 管道本体焊缝)、工业设施(如某条焊缝、某个阀门)所属关系(如某油田 - 某二级单位 - 某站场 / 管线 - 某条焊缝)、工业非结构化数据(如某阀门洽购文件、某阀门施工文件)半结构化数据(如某阀门设计模型)与结构化数据(某阀门)之间的关联关系。采集后果能够依据相应的属性关键字开掘数据之间的关系。

5 数据存储

在理论业务场景中,会产生各种各样的数据,依照数据的结构特征,能够分为结构化数据、半结构化数据以及非结构化数据,其中不仅包含合乎采集规范的数据,同时也包含各类非标准数据,如第三方增补数据、利用回存数据等。这里往往会因为数据存储设计不合理,数据的存储能力无限,人为后盾调整数据,引起数据失落、数据有效、数据失真、记录反复等问题。数据在进入数据仓库后,应在理论业务需要的根底上,依照其各自的构造模式别离进行存储,而且因为企业数据规模往往非常宏大,在进行存储时也应充分考虑构建大数据的存储构造。

5.1 确认数据的存储形式

依据是否符合标准,结构化数据分为两个局部,包含规范结构化数据(+ 关系)与非规范结构化数据(+ 关系)。通过规范对结构化数据做出具体定义,利用关系型数据库(SQL)作为规范采集数据落地的数据库。对于非标准结构化数据(+ 关系)以及规范结构化数据(关系)本章须要做重点形容。

1)非标准

非标准是指自身不属于规范定义。因为此类可能属于其余数据规范或此类属于动态数据(如用户行为数据,数据属性定义随意性会很大、数据增长形式不法则),因而对于非标准无奈应用关系型数据库而须要抉择不局限于固定构造的非关系型数据库(NoSQL)。

2)规范数据非标准属性

规范的非标准属性是指自身属于规范定义,但属性不在采集规范的属性定义范畴内。此类属性不是必填属性,属性类型也不固定。因而会将非标准属性形容的拆分为两局部存储,符合标准的属性寄存在关系型数据库(SQL)中,不符合标准的属性寄存在非关系型数据库(NoSQL)中。两局部数据通过雷同主键关联。

3)数据关系

前文介绍了三种数据关系,别离是分类层级构造关系、对象所属关系以及结构化数据与非结构化半构造数据关联关系。关系数据会对立寄存在 NoSQL 中,反对数据的关联剖析。另外为了实现非结构化数据与半结构化数据独立存储,保证数据的安全性与扩展性。就须要通过分布式文件系统寄存在各个单位的存储模块中。再将非结构化与半结构化数据的寄存地址与形容写入 SQL 数据库中的结构化数据的属性中。实现数据的对立治理。

6 数据管理

数据管理往往影响数据品质的是主观因素,例如企业管理者不足数据思维,没有意识数据品质的重要性。没有明确数据归口治理部门或岗位,不足数据认责机制,呈现数据品质问题找不到负责人。不足数据布局,没有明确的数据品质指标,没有制订数据品质相干的政策和制度。数据输出标准不对立,不同的业务部门、不同的工夫、甚至在解决雷同业务的时候,因为数据输出标准不同,造成数据抵触或矛盾。不足无效的数据品质问题解决机制,数据品质问题从发现、指派、解决、优化没有一个对立的流程和制度撑持,数据品质问题无奈闭环。不足无效的数据管控机制,对历史数据质量检查、新增数据品质校验没有明确和无效的控制措施,呈现数据品质问题无奈考核。

企业须要定义专门组织机构来治理数据,这是数据治理我的项目胜利的最基本的保障。主要职责是两个层面:一是在制度层面,制订企业数据治理的相干制度和流程,并在企业内推广,融入企业文化。二是在执行层面,通过继续优化数据品质监控办法,为各项业务利用提供高牢靠的数据。

7 数据交付服务

数据传输过程中常常会遇到因为数据接口自身存在问题、数据接口参数配置谬误、网络不牢靠等造成的数据品质问题。通过技术手段构建便于复制和定制接口的数据平台,如基于 PaaS 平台与微服务架构(Spring Cloud + Docker),通过微服务注册和公布供数与收数接口(HTTP),保障服务的高可用和灵便拓展。对于数据消费者,须要解决业务零碎的各自为政及“数据烟囱”问题。通过技术手段的实现数据汇总,买通不同利用不同畛域的数据壁垒,实现数据共享服务。

8 总结

本文次要介绍了数据治理过程中常见的数据品质问题与保障数据品质的策略与流程,同时也介绍了规范的设计原理与最终的利用办法。根据上述钻研能够看出,保障数据品质是数据交付和剖析的前提,技术施行的方法始终围绕保障数据品质的需要,从而保障了企业数据治理的最终落地。

附录

数据真实性:数据必须实在精确的反映主观的存在或实在的业务,实在牢靠的原始统计数据是企业统计工作的根本要求,是经营者进行正确经营决策必不可少的第一手材料。

数据准确性:准确性也叫可靠性,是用于剖析和辨认哪些是不精确的或有效的数据,不牢靠的数据可能会导致重大的问题,会造成有缺点的办法和蹩脚的决策。

数据唯一性:用于辨认和度量反复数据、冗余数据。反复数据是导致业务无奈协同、流程无奈追溯的重要因素,也是数据治理须要解决的最根本的数据问题。

数据完整性:数据完整性问题包含:模型设计不残缺,例如:唯一性束缚不残缺、参照不残缺;数据条目不残缺,数据记录失落或不可用;数据属性不残缺,数据属性空值。不残缺的数据所能借鉴的价值就会大大降低,也是数据品质问题最为根底和常见的一类问题。

数据一致性:多源数据的数据模型不统一,命名不统一、数据结构不统一、束缚规定不统一。数据不统一,数据编码不统一、命名及含意不统一、分类档次不统一、生命周期不统一等,雷同的数据有多个正本的状况下的数据不统一、数据内容抵触的问题。

数据关联性:数据关联性问题是指存在数据关联的数据关系缺失或谬误,函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会间接影响数据分析的后果,进而影响管理决策。

数据及时性:数据的及时性是指是否在须要的时候获到数据,数据的及时性与企业的数据处理速度及效率有间接的关系,是影响业务解决和管理效率的要害指标。

正文完
 0