关于数据分析:数据治理说一个90的人没搞清的事

85次阅读

共计 3287 个字符,预计需要花费 9 分钟才能阅读完成。

明天给大家介绍一组容易混同的概念:数据清理 VS 数据整顿。

​数据清理、数据整顿也统称数据处理或数据筹备,它是数据工作最根底的局部,不管数据仓库、数据治理、数据分析、数据挖掘,都离不开数据清理和整顿,这也是每个数据我的项目消耗工作量最大的工作,均匀占据了数据我的项目的 60% 以上的工作量。

数据清理和整顿是数据分析、开掘的前提,也是数据治理工作的重点内容。因为这两项工作大多数状况下是放在一起做的,因而很多人不晓得或没有基本在意过这两个名词到底是不是一回事?即便你在一些业余的数据管理书籍中也难以找到他们的区别。

那,数据清理 = 数据整顿 吗?

可能有人会说,“把事干好不就得了,纠结概念干吗?”

然而,概念都搞不清楚,有可能把事件做好吗?

数据治理的名词术语,我要和你死磕到底!

数据清理和数据整顿到底是不是一回事?
清理,整顿一字之差,两个“动词”,代表了两个截然不同的操作。

如果你不分明数据清理和数据整顿的区别,我先给你举个例子:清理房间 VS 整顿房间。

个别咱们说,“XX,你去把房间清理一下”,意思是让你去把房间做个大扫除,垃圾清理掉。清理是要扔货色,清理后,货色没了。

而如果说,“XX,你去把房间整顿一下“,意思中不仅含有清扫的意思,更多的是还要让你把房间中横七竖八的货色进行归类并摆放参差。整顿不扔货色,整顿后,货色还在。

在数据管理畛域,数据清理和数据整顿企业也有同样的差别,如果明细分工的话,能够说这是数据处理工作中的两个”工段“,只管事实中咱们都将他们放在一起做了。

数据清理,有时也叫数据荡涤,是指发现并纠正数据中可辨认的谬误的一道程序,包含检查数据一致性,解决有效值、缺失值解决、反复数据清理等。

数据整顿,有时也叫数据转换,是指针对特定业务场景将清理后的数据转换为可用数据的一种做法,协调并确保数据品质满足业务所需。

看进去了吧,数据清理就是把数据中的“垃圾数据”解决洁净,数据整顿是在洁净的数据根底上转换为业务所须要的数据,因而,往往咱们亲切的合称它们为“数据荡涤与转换”。

所以,当前领导让你搞一下“数据荡涤与转换”,你要反诘他:“你是让我搞数据清理呢,还是数据整顿呢?”(只有你不怕被打,哈哈!)

在做数据清理或整顿之前须要搞清楚的事件?
“垃圾进,垃圾出”,要想取得无效的数据分析后果,必须提供高质量的数据。数据清理和数据整顿就是为数据分析、数据挖掘进行的一项数据品质筹备工作。

凡事都要讲办法,在开始数据荡涤和转换之前,你须要搞清楚以下三件事件,而不是一头扎进数据中,一顿乱撸。

1、定义业务案例

明确业务指标是正确处理数据的第一步,一个残缺的业务案例场景个别包含:公司策略、业务指标、存在的问题、治理的现状,以及做该项工作预计投入的老本和投资回报率等等。
2、考察数据源

对我的项目所波及的数据源进行全面考察,考察的的事项包含:
理分明以后业务案例所须要哪些数据,这些数据的起源是什么,蕴含在哪些零碎、哪些流程中。

明确这些数据源寄存地位、以后是谁负责管理。

明确数据的实时性要求,定义数据源传输数据的机制和频率。

3、数据概要剖析

此步骤是在荡涤和整顿数据之前真正理解数据,包含数据的构造、数据品质根本状况、数据体量的大小等等。对数据进行彻底剖析和检测能够帮忙确定数据源是否值得纳入数据荡涤和整顿工作中,明确可能的数据品质问题,以及为数据分析应用而荡涤和整顿数据所需的水平,这对后续数据清理和整顿有个大抵的预估。

定义业务案例,剖析和评估数据源,辨认出业务所需的数据以及应用该数据所须要解决的工作。好了,当初能够进入数据荡涤阶段了。

数据清理的办法和技术
只有在评估并剖析了数据源之后,能力进行数据清理。数据清理取决于彻底和间断的数据分析,以辨认必须解决的数据品质问题。
常见的数据清理办法包含(但不限于):

1、定义数据品质打算
品质打算源自业务指标,这可能须要与业务人员进行一些调研,以找出对以下问题的答案:“咱们的取数规范是什么?”,“咱们哪些自动化取数的工具和办法”,“哪些数据是上游产品和业务流程的要害”,“数据品质谁负责”和“他们如何确定数据的准确性”等。

2、删除反复数据
没有完满的源数据集,有时候及时来自同一个数据源也可能存在大量的反复数据。须要对每一条记录进行惟一标识,为每个数据记录设置“主键”(个别会应用记录中的一个字段或多个字段的组合进行设置惟一主键)。如果数据集蕴含具备雷同“主键”的记录,则能够删除其中一行以外的所有行。

3、验证准确性
不精确的数据对数据分析后果影响很大,须要在数据收集阶段验证数据的准确性。例如,你要剖析某网站上某产品的平均价格,这时候你采集的数据如果只是促销期间的价格,就会对数据的准确性造成影响。

4、空值解决
空值是指字段中数据缺失,个别体现为“NA”,“Null”,“-1”等模式。对于空值解决办法有很多,例如,删除空值的记录、常数填充、均值填充、最大数填充、最小数填充,应用前一个或后一个数填充等,在不同的剖析场景下应用不同的空值解决形式。

5、阈值查看
这是一种更加粗疏的数据清理办法。它包含将以后数据集与历史值和记录计数进行比拟。例如,在医疗保险行业,假如每月理赔数据源均匀容许的总金额为 200 万,惟一理赔计数为 10 万。如果随后的数据加载达到时容许的总金额为 1000 万元,并且有 50 万个惟一申明,那么这些金额将超出失常的预期差别阈值,并应触发进一步的审查。
后期数据清理可为上游流程和数据分析提供精确、统一的数据,这加强用户对数据的信念。

数据整顿的办法和技术
数据整顿有时也叫数据转换是针对特定业务场景将清理后的数据转换为业务所需的一种做法。大数据的挑战之一是解决大数据集,特地是在数据转换的晚期,剖析人员须要通过许多不同的探索性技术疾速迭代。例如为了帮忙驯服 5 亿行数据,须要对数据集进行随机采样以摸索数据并列出筹备步骤。这种办法将极大地减速数据摸索,并迅速为进一步的转换奠定根底。

1、理解列和数据类型
如果数据源有数据字典的话能够疾速帮忙你实现此步骤。但如果没有数据字典的话这就是一个比拟苦楚的事件,你须要猜想每一个列的业务含意以及理论存储在列中的数据与列的业务含意的匹配性。这个时候你能够寻求相干业务人员帮忙你理分明数据的业务定义。

2、可视化源数据
基于数据分析工具对数据荡涤的后果数据进行可视化展现,让以后数据状态“栩栩如生”。例如:直方图显示散布,散点图帮忙发现异常值,饼图显示整体百分比,折线图能够显示关键字段随工夫的趋势。在数据工作的实际中以可视模式显示数据资产(荡涤后的数据),也是解释探索性发现和向业务人员进行必要转换的一种好办法。

3、仅抉择所需数据项
很多状况下,咱们从数据源采过来的数据的列数要远远多于理论须要的列数,多余的列对理论业务剖析没有任何帮忙反而可能造成影响,以及工夫和老本的投入等。因而,须要将多余的列进行删除或逻辑删除,仅保留业务须要的列即可。

4、转换为可操作数据
此步骤是将源数据转换为指标格局所需的数据的操作,包含转换,计算,从新格式化等。例如,如果源数据的日期字段为 MM-DD-YYYY 格局,而指标日期字段为 YYYY/MM/DD 格局,就须要更新源日期字段以匹配指标格局。

5、必要的数据测试
现实状况下,能够应用牢靠的期望值来测试数据整顿工作的后果。一般来讲,一个好的业务案例就包含用于验证业务指标的期望值。理解业务问题并迭代测试数据整顿的后果有助于数据工作人员在过程中尽早发现数据问题以进行解决。

在以后数字化时代下,空间的数据量,多样的数据格式,数据的即时性等给企业带来了微小的转型降级,快速增长的机会,然而要用好这些数据也存在的很大的挑战,而数据清理和整顿将帮忙企业充沛开释数据的后劲,实现数据的价值。

写在最初的话
明天咱们又死磕了一组相识的概念,但说实话,“数据清理”和“数据整顿”的分界线并不非常显著,我本人也是常常混着用。同时呢,这篇文章也重点介绍了数据清理和数据整顿的相干技术和办法,心愿对你有帮忙。
如果感觉不错,记得帮忙转发哦!另外,在数据畛域,你认为还有哪些概念容易混同,或者搞不明确的,能够给我留言,咱们一起“盘”它!

正文完
 0