关于算法:R语言Outliers异常值检测方法比较

2次阅读

共计 464 个字符,预计需要花费 2 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=8502

辨认异样值的办法有很多种,R 中有很多不同的办法。

对于异样值办法的文章联合了实践和实际。实践所有都很好,但异样值是异样值,因为它们不遵循 实践。如果一种办法发现咱们都认同的异样值,那么这种办法能够认为是不错的。

异样值概述(O3)图旨在帮忙比拟和了解异样值办法的后果。

Stackloss 数据集的 O3 图。每个变量组合(由右边的列定义)一行,找到了异样值,并将每个案例的一列标识为异样值(左边的列)。

威尔金森的算法为整个数据集找到了 6 个离群值(图的最上面一行)。总体而言,对于各种变量组合,发现 14 个案例是潜在的异样值。

O3plot,用于比拟标识的 异样值

在 OutliersO3 中有四种其余办法可用,:

##    HDo    PCS    BAC adjOut    DDC    MCD
##    14      4      5      0      6      5

R 中还有其余异样办法,他们会给出更多不同的后果。必须审慎。离群值自身可能是乏味的,但也可能判断谬误。

正文完
 0