关于数据挖掘:思迈特软件SmartbiGet这些数据清洗小技巧快速提高数据质量

37次阅读

共计 1620 个字符,预计需要花费 5 分钟才能阅读完成。

数据荡涤怎么做(一):筹备工作

拿到数据表之后,先做这些筹备工作,不便之后的数据荡涤。

  1. 给每一个 sheet 页命名,不便寻找
  2. 给每一个工作表加一列行号,不便前面改为原程序
  3. 测验每一列的格局,做到每一列格局对立
  4. 做数据源备份,避免处理错误须要参考原数据
  5. 删除不必要的空行、空列

数据荡涤怎么做(二):对立数值口径

这是个无聊而必要的步骤。例如咱们统计销售工作指标,有时用合同金额有时用回款金额,口径常常不对立。统计起来就很麻烦。所以将不标准的数值改为标准这一步不可或缺。

数据荡涤怎么做(三):删掉多余的空格

原始数据中如果夹杂着大量的空格,可能会在咱们筛选数据或统计时带来肯定麻烦。如何去掉多余的空格,仅在字符间保留一个空格?

  1. 手动删除。如果只有三五个空格,这可能是最快的形式。
  2. 函数法

在做数据荡涤时,常常须要去除数据两端的空格,那么 TRIM、LTRIM、RTRIM 这 3 个函数就能够帮到你啦~

TRIM 函数:次要是用来去除单元格内容前后的空格,但不会去除字符之间的空格。表达式:=TRIM(文本)

数据荡涤怎么做(四):字段去重

强烈建议把去重放在去除空格之后,因为多个空格导致工具认为“顾纳”和“顾 纳”不是一个人,去重失败。

依照“数据”-“删除反复项”- 抉择反复列步骤执行即可。(单选一列示意此列数据反复即删除,多选示意多个字段都反复才删除。)

数据荡涤怎么做(五):填补缺失值

因为人工录入或者数据爬虫等多方面的起因,会呈现缺失值的状况,这就须要咱们寻找漏网之“数据”,填充空缺值。

如何统计有多少缺失值?先看 ID 惟一列有多少行数据,参考 excel 右下角的计数性能,比照就能够晓得其余列缺失了多少数据。

如何定位到所有缺失值?Ctrl+G, 抉择定位条件,而后抉择空值。

缺失值的解决办法:

  1. 人工补全。适宜数据量少的状况。
  2. 删除。实用于样本较大的状况,样本较小时,可能会影响最终的剖析后果。
  3. 依据数据的散布状况,能够采纳均值、中位数、或者众数进行数据填充。数据平均,均值法填充;数据分布歪斜,中位数填充。

数据荡涤怎么做(六):用模型计算值来代替缺失值

回归:基于残缺的数据集,建设回归方程。将已知属性值代入方程来预计未知属性值,以估计值来进行空值得填充。

极大似然预计:基于缺失类型为随机缺失得条件下,假如模型对于残缺的样本是正确的,通过观测数据的边际散布能够对缺失数据进行极大似然预计。

数据荡涤怎么做(七):插补法

随机插补法:从总体中随机抽取某几个样本代替缺失样本。

多重填补法:蕴含 m 个插补值的向量代替每一个缺失值的过程,要求 m 大于等于 20。m 个残缺数据汇合能从插补向量中创立。

数据荡涤怎么做(八):异样值解决

异样值:指一组测定值中与平均值的偏差超过两倍标准差的测定值。

对异样值解决,须要具体情况具体分析,一般而言,异样值的解决办法罕用有以下 3 种:

  1. 不解决

2. 用平均值代替:利用平均值来代替异样值,损失信息小,简略高效。

视为缺失值:将异样值视为缺失值来解决,采纳解决缺失值的办法来解决异样值。

数据荡涤怎么做(九):拆分单元格

依照以下步骤对合并单元格进行拆分并填充:

  1. 点击勾销合并单元格
  2. 空白单元格定位:点击定位 - 抉择空白
  3. 写上 = 上个单元格
  4. Ctrl+Enter

数据荡涤怎么做(十):分组计算

通过 VLOOKUP 函数将字段合在一起用于计算。

VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)

以上是思迈特软件 Smartbi 的分享,更多行业干货可关注咱们下一期的分享。思迈特软件 Smartbi 是出名国产 BI 品牌, 专一于商业智能 BI 与大数据 BI 剖析平台软件产业的研发及服务。通过多年继续自主研发,凝聚大量商业智能最佳实践经验,整合了各行业的数据分析和决策反对的性能需要。满足最终用户在企业级报表、数据可视化剖析、自助摸索剖析、数据挖掘建模、AI 智能剖析等大数据分析需要。

现个人版提供全模块长期收费应用,有趣味的小伙伴可登陆官网收费试用~

正文完
 0