全文链接:http://tecdat.cn/?p=3232
什么是异样值?
异样值是与其余观测值有显著差别的数据点。异样值会显著扭曲特色散布和 ML 工作,因而咱们须要察看并造成解决它们的策略。
异样值是如何呈现的?
这种察看的呈现可能是由以下起因引起的:
- 测量方法的差别,例如,传感器的灵敏度产生了变动;
- 试验误差,其中异样值可能是数据收集过程中谬误的后果;
- 引入新办法;
- 数据收集阶段或数据处理过程中的谬误;
- 或观测值中方差的批示符。
依据异样值的性质,您能够保留它们或排除它们,例如,在试验谬误的状况下,您心愿删除它们。
异样值的类型有哪些?
有 3 种类型的异样值:
- 全局: 也称为点异样值。这一察看后果远远超出了整个数据集的范畴。例如:在一个班级中,所有学生的年龄都是雷同的,但有一个对于 500 岁学生的记录。
2. 条件 :依据上下文,察看样本被认为是异样的。例如,因为寰球经济危机,一个国家的经济体现急剧下降,一段时间内较低的利率成为常态。
3. 汇合: 一组彼此靠近且具备靠近异样值的观测值。如果点的子集作为聚合值与整个数据集显著偏离,但单个数据点的值自身在上下文或全局意义上都不是异样的:
为什么辨认异样值很重要?
机器学习算法对值的范畴和散布很敏感。异样值可能会误导 ML 模型,导致训练工夫缩短、准确性升高,最终导致后果更差。然而,并非所有 ML 工作都受到异样值的影响,对于某些算法,您能够平安地疏忽它们。
- 异样值敏感算法:线性回归、逻辑回归、反对向量机
- 异样免疫算法:所有基于树或简单的算法
在业务方面,您应该理解为什么存在异样值,并且您能够将其删除。例如,如果您有一个示意人身高的因素,并且其中一个观测值蕴含一个字符串,而不是一个字符串,其奇怪值如 =“abc cm”,并且因为高度不能蕴含此类值,因而能够平安地将其删除。
如何检测异样值?
您能够通过应用不同类型的视觉效果轻松发现异常值:
- 箱线图
以下是箱线图显示的内容:
- 中位数是位于排名序列核心的元素的值。请留神,中位数受异样值的影响较小,因而在核心显示的是中位数,而不是算术平均值。
- 前四分位数(Q3 或 75%)是分数,只有 25% 的值高于该分数。下四分位数(Q1 或 25%)是低于该值的值,只有 25% 的值。
- 四分位间距(IQR)是 75% 和 25% 四分位数之间的差值。在此范畴内有 50% 的值。例如,如果范畴很窄,则子组的成员在评估中是统一的。如果它是宽泛的,那么就没有同质的意见。
基于上述情况,您通常能够检测到高于“25% 百分位减去 1.5 x IQR”或低于“75% 百分位加 1.5 x IQR”的异样值,如上图所示。
2. 直方图
直方图将数值数据聚合到称为条柱的平均距离组中,并显示每个条柱中值呈现的频率。条形图是应用数字字段或百分比 / 比率字段创立的。直方图有助于答复以下问题:值的散布是什么,它们在数据集中呈现的频率如何?
通过减少和缩小条柱的数量,您能够影响数据分析的形式。尽管数据自身不会更改,但其外观可能会更改。抉择正确数量的条柱对于正确解释数据中的模式十分重要。太少的条柱能够暗藏一些模式,太多的条柱会夸张小的、可承受的数据更改的价值。正确的条柱数量将揭示在应用箱线图时不可见的模式。
3. 散点图
散点图显示两个变量之间汇合元素的散布。一个独立参数的值沿 X 轴绘制,第二个隶属参数的值沿 Y 轴绘制。
散点图上显示的模式可用于查看不同类型的相关性。从点的个别聚类 / 相干线中显著移除的点称为异样值。
4. Z 得分
z 得分也能够称为标准分数,用于示意数据绝对于均值的散布。此分数示意低于或高于给定总体的规范差数。
z 的值能够在钟形曲线上看到。其中 Z 得分的范畴从 -3 个标准差(正态分布曲线的最右边角)到 +3 个标准差(正态分布曲线的最左边角)。在大多数状况下,大于或小于 -+3 的值被标识为异样值。
如何解决异样值?
在数据集中检测到异样值后,您须要执行以下 3 类操作:
- 删除异常值。通常,如果您对数据应该落在哪个范畴内有很好的理解,例如人们的年龄,则能够删除异常值,您能够平安地删除超出该范畴的值。
- 更改异样值的值(例如,将值替换为平均值或最大值,例如 90% 百分位)
- 保留它。例如,如果 20%-40% 的数据是异样值,则不应将其视为异样值,而应进一步钻研它。