共计 1257 个字符,预计需要花费 4 分钟才能阅读完成。
数据荡涤对数据进行从新审查和校验的过程,目标在于删除反复信息、纠正存在的谬误,并提供数据一致性,是企业在做数据分析时必不可少的步骤。
那么,数据荡涤咱们须要“洗”的数据有哪些呢?
1、谬误数据
这一类谬误产生的起因是业务零碎不够健全,在接管输出后没有进行判断间接写入后盾数据库造成的,比方数值数据输成全角数字字符、字符串数据前面有一个回车操作、日期格局不正确、日期越界等。这一类数据也要分类,对于相似于全角字符、数据前后有不可见字符的问题,只能通过写 SQL 语句的形式找进去,而后要求客户在业务零碎修改之后抽取。日期格局不正确的或者是日期越界的这一类谬误会导致 ETL 运行失败,这一类谬误须要去业务零碎数据库用 SQL 的形式挑出来,交给业务主管部门要求限期修改,修改之后再抽取。
2、完好数据
这一类数据次要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务零碎中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容别离写入不同 Excel 文件向客户提交,要求在规定的工夫内补全。补全后才写入数据仓库。
3、反复数据
数据荡涤是一个重复的过程,不可能在几天内实现,只有一直的发现问题,解决问题。对于是否过滤,是否修改个别要求客户确认,对于过滤掉的数据,写入 Excel 文件或者将过滤数据写入数据表,在 ETL 开发的初期能够每天向业务单位发送过滤数据的邮件,促使他们尽快地修改谬误, 同时也能够做为未来验证数据的根据。数据荡涤须要留神的是不要将有用的数据过滤掉,对于每个过滤规定认真进行验证,并要用户确认。
对于呈现的这种状况,数据荡涤罕用办法有以下 4 个:
1、抛弃
这种办法简单明了,间接删除带有缺失值的行记录或者列字段,缩小趋势数据记录对总体数据的影响。但失落意味着会消减数据特色,以下场景都不宜采纳抛弃的办法:数据集总体存在大量的数据记录不残缺状况;带有缺失值的数据记录大量存在着显著的数据分布规定或特色。
2、补全
绝对于抛弃而言,补全是更加罕用的缺失值解决形式,通过肯定的办法将缺失的数据补上,从而造成残缺的数据记录对于后续的数据处理、剖析和建模直观重要。
3、不解决
在数据预处理阶段,对于具备缺失值的数据记录不做任何解决,也是一种思路。这种思路次要看前期的数据分析和建模利用,很多模型对于缺失值有容忍度或灵便的解决办法,因而在预处理阶段能够不做解决。
4、真值转换法
抵赖缺失值的存在,并且把数据缺失也作为数据分布法则的一部分,这将变量的理论值和缺失都作为输出维度参加后续数据处理和模型计算。然而变量的理论值能够作为变量值参加模型计算,而缺失值通常无奈参加运算,因而须要对缺失值进行真值转换。
以上就是思迈特软件明天分享的数据荡涤相干信息。
感谢您的浏览,更多常识,请持续关注咱们,下期再见!
思迈特软件 Smartbi 是国家认定的“高新技术企业”,专一于商业智能(BI)与大数据分析软件产品和服务。咱们在 BI 畛域具备 15 年以上产品研发教训,提供残缺的大数据分析软件产品、解决方案、以及配套的征询、施行、培训及保护服务。