关于数据:数据治理数据质量管理策略

25次阅读

共计 6069 个字符,预计需要花费 16 分钟才能阅读完成。

数据品质治理蕴含正确定义数据规范,并采纳正确的技术、投入正当的资源来治理数据品质。数据品质管理策略和技术的利用是一个比拟宽泛的领域,它能够作用于数据品质治理的事先、事中、预先三个阶段。

数据品质治理应秉持预防为主的理念,保持将“以预控为外围,以满足业务需要为指标”作为工作的基本出发点和落脚点,增强数据品质治理的事先预防、事中管制、预先补救的各种措施,以实现企业数据品质的继续晋升,如下图所示。

01 数据品质管理策略之事先预防

东汉史学家荀悦在《申鉴·杂言上》中提到对皇帝进献忠告的三种办法,也称进忠有三术:“一曰防,二曰救,三曰戒。先其未然谓之防,发而止之谓之救,行而责之谓之戒。防为上,救次之,戒为下。”

事先预防即防患于未然,是数据品质治理的上上之策。数据品质治理的事先预防能够从组织人员、标准规范、制度流程三个方面动手。

一、增强组织建设

企业须要建设一种文化,以让更多的人意识到数据品质的重要性,这离不开组织机制的保障。建设数据品质治理的组织体系,明确角色职责并为每个角色配置适当技能的人员,以及增强对相干人员的培训和造就,这是保证数据品质的无效形式。

1、组织角色设置

企业在施行数据品质治理时,应思考在数据治理整体的组织框架下设置相干的数据品质治理角色,并确定他们在数据品质治理中的职责分工。常见的组织角色及其职责如下。

●  数据治理委员会:为数据品质定下基调,制订无关数据基础架构和流程的决策。数据治理委员会定期散会以新的数据品质指标,推动测量并剖析各个业务部门内数据品质的状态。

● 数据分析师:负责数据问题的根因剖析,以便为数据品质解决方案的制订提供决策依据。

● 数据管理员:负责将数据作为公司资产进行治理,保障数据品质,例如定期数据清理、删除反复数据或解决其余数据问题。

2、增强人员培训

数据不精确的次要起因是人为因素,增强对相干人员的培训,晋升人员的数据品质意识,可能无效缩小数据品质问题的产生。

数据品质治理培训是一个双赢的过程。

对于员工来说,通过培训,本人不仅可能意识到数据品质对业务和治理的重要性,还能学习到数据管理实践、技术、工具等常识和技能,确保上游业务人员晓得他们的数据对上游业务和应用程序的影响,让本人在工作中尽可能不犯错、少犯错,进步本人的业务解决效率和品质。

对于企业来说,通过培训,能够使数据规范失去宣贯,晋升员工的数据思维和对数据的认识水平,建设起企业的数据文化,以撑持企业数据治理的长治久安。

此外,企业应激励员工加入业余资格认证的培训,这样可能让相干人员更加系统性地学习数据治理常识体系,晋升数据管理的业余能力。

二、落实数据规范

数据规范的无效执行和落地是数据品质治理的必要条件。数据规范包含数据模型规范、主数据和参考数据规范、指标数据规范等。

1、数据模型规范

数据模型规范数对数据模型中的业务定义、业务规定、数据关系、数据品质规定等进行对立定义,以及通过元数据管理工具对这些规范和规定进行对立治理。在数据品质治理过程中,能够将这些规范映射到业务流程中,并将数据规范作为数据品质评估的根据,实现数据品质的稽查核验,使得数据的品质校验有据可依,有法可循。

2、主数据和参考数据规范

主数据和参考数据规范蕴含主数据和参考数据的分类规范、编码标准、模型规范,它们是主数据和参考数据在各部门、各业务零碎之间进行共享的保障。如果主数据和参考数据规范无奈无效执行,就会重大影响主数据的品质,带来主数据的不统一、不残缺、不惟一等问题,进而影响业务协同和决策反对。

3、指标数据规范

指标数据是在业务数据根底上依照肯定业务规定加工汇总的数据,指标数据规范次要涵盖业务属性、技术属性、治理属性三个方面。指标数据规范对立了剖析指标的统计口径、统计维度、计算方法的根底,不仅是各业务部门共识的根底,也是数据仓库、BI 我的项目的次要建设内容,为数据仓库的数据品质稽查提供根据。

三、制度流程保障

1、数据品质治理流程

数据品质治理是一个闭环治理流程,包含业务需要定义、数据品质测量、根本原因剖析、施行改良计划、控制数据品质,如下图所示。

1、业务需要定义

笔者的一贯主张是:企业不会为了治理数据而治理数据,背地都是为了实现业务和治理的指标,而数据品质治理的目标就是更好地实现业务的冀望。

第一

将企业的业务指标对应到数据品质管理策略和打算中。

第二

让业务人员深度参加甚至主导数据品质治理,作为数据次要用户的业务部门能够更好地定义数据品质参数。

第三

将业务问题定义分明,这样能力剖析出数据数量问题的根本原因,进而制订出更正当的解决方案。

2、数据品质测量

数据品质测量是围绕业务需要设计数据评估维度和指标,利用数据品质管理工具实现对相干数据源的数据品质状况的评估,并依据测量后果归类数据问题、剖析引起数据问题的起因。

第一

数据品质测量以数据品质问题对业务的影响剖析为领导,清晰定义出待测量数据的范畴和优先级等重要参数。

第二

采纳自上而下和自下而上相结合的策略辨认数据中的异样问题。自上而下的办法是以业务指标为出发点,看待测量的数据源进行评估和掂量;自下而上的办法是基于数据概要剖析,辨认数据源问题并将其映射到对业务指标的潜在影响上。

第三

造成数据治理评估报告,通过该报告分明列出数据品质的测量后果。

3、根本原因剖析

产生数据品质问题的起因有很多,然而有些起因仅是表象,并不是根本原因。要做好数据品质治理,应抓住影响数据品质的关键因素,设置品质治理点或品质控制点,从数据的源头抓起,从根本上解决数据品质问题。

4、施行改良计划

没有一种通用的计划来保障企业每个业务每类数据的准确性和完整性。企业须要联合产生数据问题的根本原因以及数据对业务的影响水平,来定义数据品质规定和数据质量指标,造成一个合乎企业业务需要的、举世无双的数据品质改良计划,并立刻付诸行动。

5、控制数据品质

数据品质管制是在企业的数据环境中设置一道数据品质“防火墙”,以预防不良数据的产生。数据品质“防火墙”就是依据数据问题的根因剖析和问题解决策略,在产生数据问题的入口设置的数据问题测量和监控程序,在数据环境的源头或者上游进行的数据问题防治,从而防止不良数据向上游流传并净化后续的存储,进而影响业务。

2、数据品质管理制度

数据品质管理制度设置考核 KPI,通过专项考核计分的形式对企业各业务域、各部门的数据品质治理状况进行评估。以数据品质的评估后果为根据,将问题数据归结到相应的分类,并按所在分类的权值进行量化。总结产生数据品质问题的法则,利用数据品质管理工具定期对数据品质进行监控和测量,及时发现存在的数据品质问题,并督促落实改过。

数据品质管理制度的作用在于束缚各方增强数据品质意识,督促各方在日常工作中器重数据品质,在发现问题时可能追根溯源、被动解决。

02 数据品质管理策略之事中管制

数据品质治理的事中管制是指在数据的保护和应用过程中监控和治理数据品质。通过建设数据品质的流程化管制体系,对数据的创立、变更、采集、荡涤、转换、装载、剖析等各个环节的数据品质进行管制。

一、增强数据源头的管制

“问渠那得清如许,为有源头活水来。”理解数据的起源对于企业的数据品质至关重要,从数据的源头管制好数据品质,让数据“规范化输出、标准化输入”是解决企业数据品质问题的关键所在。企业能够思考从以下几个方面做好源头数据品质的治理。

1、保护好数据字典

数据字典是记录规范数据、确保数据品质的重要工具。数据会随着工夫累积,如果数据积攒在电子表格等非正式数据系统中,那么这些贵重的数据就可能会存在肯定的危险,例如可能会随着要害员工的到职而失落。通过建设企业级数据字典对企业的要害数据进行无效标识,并清晰、精确地对每个数据元素进行定义,能够打消不同部门、不同人员对数据可能的误会,并让企业在 IT 我的项目上节俭大量工夫和老本。

2、自动化数据输出

数据品质差的一个根本原因是人为因素,手动输出数据,很难防止数据谬误。因而,企业应该思考自动化输出数据,以缩小人为谬误。一个计划,只有零碎能够主动执行某些操作就值得施行,例如,依据关键字主动匹配客户信息并主动带入表单。

3、自动化数据校验

对于疾病,预防比医治更容易,数据治理也一样。咱们能够通过预设的数据品质规定对输出的数据进行自动化校验,对于不合乎品质规定的数据进行揭示或回绝保留。数据品质校验规定包含但不限于以下几类。

● 数据类型正确性:数字、整数、文本、日期、参照、附件等。

● 数据去重校验:齐全反复的数据项、疑似反复的数据项等。

● 数据域值范畴:最大值、最小值、可承受的值、不可承受的值。

● 数据分类规定:用来确定数据属于某个分类的规定,确保正确归类。

● 单位是否正确:确保应用正确的计量单位。

4、人工干预审核

数据品质审核是从源头上控制数据品质的重要伎俩,采纳流程驱动的数据管理模式,控制数据的新增和变更,每个操作都须要人工进行审核,只有审核通过数据能力失效。例如:供应商主数据产生新增或变更,就能够采纳人工审核的形式来控制数据品质。

二、增强流转过程的管制

数据品质问题不止产生在源头,如果以最终用户为起点,那么数据采集、存储、传输、解决、剖析中的每一个环节都有可能呈现数据品质问题。所以,要对数据全生命周期中的各个过程都做好数据品质的全面预防。数据流转过程的品质控制策略如下。

1、数据采集

在数据采集阶段,可采纳以下品质控制策略:

● 明确数据采集需要并造成确认单;

● 数据采集过程和模型的标准化;

● 数据源提供精确、及时、残缺的数据;

● 将数据的新增和更改以音讯的形式及时播送到其余应用程序;

● 确保数据采集的具体水平或粒度满足业务的须要;

● 定义采集数据的每个数据元的可承受值域范畴;

● 确保数据采集工具、采集办法、采集流程已通过验证。

2、数据存储

在数据存储阶段,可采纳以下品质控制策略:

● 抉择适当的数据库系统,设计正当的数据表;

● 将数据以适当的颗粒度进行存储;

● 建设适当的数据保留时间表;

● 建设适当的数据所有权和查问权限;

● 明确拜访和查问数据的准则和办法。

3、数据传输

在数据传输阶段,可采纳以下品质控制策略:

● 明确数据传输边界或数据传输限度;

● 保障数据传输的及时性、完整性、安全性;

● 保障数据传输过程的可靠性,确保传输过程数据不会被篡改;

● 明确数据传输技术和工具对数据品质的影响。

4、数据处理

在数据处理阶段,可采纳以下品质控制策略:

● 正当解决数据,确保数据处理合乎业务指标;

● 反复值的解决;

● 缺失值的解决;

● 异样值的解决;

● 不统一数据的解决。

5、数据分析

● 确保数据分析的算法、公式和剖析零碎无效且精确;

● 确保要剖析的数据残缺且无效;

● 在可重现的状况下剖析数据;

● 基于适当的颗粒度剖析数据;

● 显示适当的数据比拟和关系。

● 事中管制的相干策略

03 数据品质治理之预先补救

是不是做好了事先预防和事中管制就不会再有数据品质问题产生了?答案显然是否定的。事实上,不管咱们采取了多少预防措施、进行了如许严格的过程管制,数据问题总是还有“漏网之鱼”。你会发现只有是人为干涉的过程,总会存在数据品质问题,即便抛开人为因素,数据品质问题也无奈防止。为了尽可能减少数据品质问题,加重数据品质问题对业务的影响,咱们须要及时发现它并采取相应的补救措施。

一、定期品质监控

定期品质监控也叫定期数据测量,是对某些非关键性数据和不适宜继续测量的数据定期从新评估,为数据所处状态合乎预期提供肯定水平的保障。

定期监控数据的情况,为数据在某种程度上合乎预期提供保障,发现数据品质问题及数据品质问题的变动,从而制订无效的改良措施。定期品质监控就像人们定期体检一样,定期检查身材的衰弱状态,当某次体检数据产生显著变动时,医生就会晓得有哪些数据出现异常,并依据这些异样数据采取适当的医治措施。

对于数据也一样,须要定期对企业数据治理进行全面“体检”,找到问题的“病因”,以实现数据品质的继续晋升。

二、数据问题补救

只管数据品质管制能够在很大水平上起到管制和预防不良数据产生的作用,但事实上,再严格的品质管制也无奈做到 100% 的数据问题防治,甚至过于严格的数据品质管制还会引起其余数据问题。因而,企业须要不断进行被动的数据清理和补救措施,以纠正现有的数据问题。

1、清理反复数据

对经数据品质检核查看出的反复数据进行人工或主动解决,解决的办法有删除或合并。例如:对于两条完全相同的重复记录,删除其中一条;如果反复的记录不完全相同,则将两条记录合并为一条,或者只保留绝对残缺、精确的那条。

2、清理派生数据

派生数据是由其余数据派生进去的数据,例如:“利润率”就是在“利润”的根底上计算得出的,它就是派生数据。而个别状况下,存储派生出的数据是多余的,不仅会减少存储和保护老本,而且会增大数据出错的危险。如果因为某种原因,利润率的计算形式产生了变动,那么必须从新计算该值,这就会减少产生谬误的机会。因而,须要对派生数据进行清理,能够存储其相干算法和公式,而不是后果。

3、缺失值解决

解决缺失值的策略是对缺失值进行插补修复,有两种形式:人工插补和主动插补。对于“小数据”的数据缺失值,个别采纳人工插补的形式,例如主数据的完整性治理。而对于大数据的数据缺失值问题,个别采纳主动插补的形式进行修复。主动插补次要有三种形式:

● 利用上下文插值修复;

● 采纳平均值、最大值或最小值修复;

● 采纳默认值修复。

当然,最为无效的办法是采纳相近或类似数值进行插补,例如利用机器学习算法找到类似值进行插补修复。

4、异样值解决

异样值解决的外围是找到异样值。异样值的检测办法有很多,大多要用到以下机器学习技术:

● 基于统计的异样检测;

● 基于间隔的异样检测;

● 基于密度的异样检测;

● 基于聚类的异样检测。

三、继续改良优化

数据品质治理是个继续的良性循环,一直进行测量、剖析、探查和改良可全面改善企业的信息品质。通过对数据品质管理策略的一直优化和改良,从对于数据问题甚至紧急的数据故障只能被动做出反馈,过渡到被动预防和控制数据缺点的产生。

通过数据品质测量、数据问题根因剖析以及数据品质问题修复,咱们能够回过头来评估数据模型设计是否正当,是否还有优化和晋升的空间,数据的新增、变更、采集、存储、传输、解决、剖析各个过程是否标准,预置的品质规定和阈值是否正当。如果模型和流程存在不合理的中央或可优化的空间,那么就施行这些优化。

预先补救始终不是数据品质治理的最现实形式,倡议保持以预防为主的准则发展数据品质治理,并通过继续的数据品质测量和探查,一直发现问题,改良办法,晋升品质。

写在最初

数据品质影响的不仅是信息化建设的成败,更是影响企业业务协同、治理翻新、决策反对的外围因素。对于数据品质的治理,保持“垃圾进,垃圾出”的总体思维,保持“事先预防、事中管制、预先补救”的数据品质管理策略,继续晋升企业数据品质程度。

只管可能没有一种真正的十拿九稳的办法来避免所有数据品质问题,然而使数据品质成为企业数据环境“DNA”的一部分将在很大水平上可能取得业务用户和领导的信赖。

正文完
 0