关于数据挖掘:检测异常值的4种方法和R语言时间序列分解异常检测

全文链接：http://tecdat.cn/?p=3232

异样值是与其余观测值有显著差别的数据点。异样值会显著扭曲特色散布和 ML 工作，因而咱们须要察看并造成解决它们的策略。

这种察看的呈现可能是由以下起因引起的：

依据异样值的性质，您能够保留它们或排除它们，例如，在试验谬误的状况下，您心愿删除它们。

有 3 种类型的异样值：

2. 条件 ：依据上下文，察看样本被认为是异样的。例如，因为寰球经济危机，一个国家的经济体现急剧下降，一段时间内较低的利率成为常态。

3. 汇合： 一组彼此靠近且具备靠近异样值的观测值。如果点的子集作为聚合值与整个数据集显著偏离，但单个数据点的值自身在上下文或全局意义上都不是异样的：

机器学习算法对值的范畴和散布很敏感。异样值可能会误导 ML 模型，导致训练工夫缩短、准确性升高，最终导致后果更差。然而，并非所有 ML 工作都受到异样值的影响，对于某些算法，您能够平安地疏忽它们。

在业务方面，您应该理解为什么存在异样值，并且您能够将其删除。例如，如果您有一个示意人身高的因素，并且其中一个观测值蕴含一个字符串，而不是一个字符串，其奇怪值如 =“abc cm”，并且因为高度不能蕴含此类值，因而能够平安地将其删除。

您能够通过应用不同类型的视觉效果轻松发现异常值：

以下是箱线图显示的内容：

中位数是位于排名序列核心的元素的值。请留神，中位数受异样值的影响较小，因而在核心显示的是中位数，而不是算术平均值。
前四分位数（Q3 或 75%）是分数，只有 25% 的值高于该分数。下四分位数（Q1 或 25%）是低于该值的值，只有 25% 的值。
四分位间距（IQR）是 75% 和 25% 四分位数之间的差值。在此范畴内有 50% 的值。例如，如果范畴很窄，则子组的成员在评估中是统一的。如果它是宽泛的，那么就没有同质的意见。

基于上述情况，您通常能够检测到高于“25% 百分位减去 1.5 x IQR”或低于“75% 百分位加 1.5 x IQR”的异样值，如上图所示。

2. 直方图

直方图将数值数据聚合到称为条柱的平均距离组中，并显示每个条柱中值呈现的频率。条形图是应用数字字段或百分比 / 比率字段创立的。直方图有助于答复以下问题：值的散布是什么，它们在数据集中呈现的频率如何？

通过减少和缩小条柱的数量，您能够影响数据分析的形式。尽管数据自身不会更改，但其外观可能会更改。抉择正确数量的条柱对于正确解释数据中的模式十分重要。太少的条柱能够暗藏一些模式，太多的条柱会夸张小的、可承受的数据更改的价值。正确的条柱数量将揭示在应用箱线图时不可见的模式。

3. 散点图

散点图显示两个变量之间汇合元素的散布。一个独立参数的值沿 X 轴绘制，第二个隶属参数的值沿 Y 轴绘制。

散点图上显示的模式可用于查看不同类型的相关性。从点的个别聚类 / 相干线中显著移除的点称为异样值。

4. Z 得分

z 得分也能够称为标准分数，用于示意数据绝对于均值的散布。此分数示意低于或高于给定总体的规范差数。

z 的值能够在钟形曲线上看到。其中 Z 得分的范畴从 -3 个标准差（正态分布曲线的最右边角）到 +3 个标准差（正态分布曲线的最左边角）。在大多数状况下，大于或小于 -+3 的值被标识为异样值。

在数据集中检测到异样值后，您须要执行以下 3 类操作：

什么是异样值？