关于人工智能:数据偏度介绍和处理方法

50次阅读

共计 1810 个字符,预计需要花费 5 分钟才能阅读完成。

偏度(skewness)是用来掂量概率分布或数据集中不对称水平的统计量。它形容了数据分布的尾部(tail)在平均值的哪一侧更重或更长。偏度能够帮忙咱们理解数据的偏斜性质,即数据绝对于平均值的散布状况。

有时,正态分布偏向于向一边歪斜。这是因为数据大于或小于平均值的概率更高,因而使得散布不对称。这也意味着数据不是均匀分布的。

偏度能够与其余描述性统计一起形容变量的散布。通过偏度也能够判断变量是否为正态分布。因为正态分布的偏度为零,是许多统计过程的假如。

偏度分类

散布能够有右偏度 (或正偏度)、左偏度(或负偏度) 或零偏度。右偏态散布在其峰值的右侧较长,而左偏态散布在其峰值的左侧较长。

1、零偏度

—当一个散布的偏度为零时,它是对称的。它的左右两边是镜像。正态分布的偏度为零,但不是只有正态分布的偏度为零。任何对称散布,如均匀分布或某些双峰分布,偏度都是零。

查看变量是否具备歪斜散布的最简略办法是将其绘制成直方图。

散布近似对称,观测值在峰值的左右两侧散布类似。因而散布的偏度近似为零。

在零偏度的散布中,平均值和中位数是相等的,也就是说:

mean = median

2、右偏(正偏)

右偏散布在其峰值的右侧比其左侧更长。右偏也被称为正偏。它表明在散布的极其一端有观测值,但它们绝对较少。右偏散布的右侧有一条长尾。

散布是右偏的,因为它在峰值右侧的工夫更长。右偏散布的均值简直总是大于中位数。这是因为极值 (尾部的值) 对均值的影响大于中位数。

mean > median

3、左偏(负偏)

左偏散布的峰值左侧比右侧更长。左偏散布的左侧有一条长尾。左偏也被称为负偏。

这个散布是左偏的,因为它在峰值的左侧更长。左偏散布的均值简直总是小于中位数。

mean < median

偏度计算

有几个公式能够用来测量偏度。其中最简略的是皮尔逊中值偏度。它就是利用了下面咱们说的偏态散布中均值和中位数不相等来计算的。

皮尔逊中位数偏度是计算均值和中位数之间有多少个标准差。

实在的观测很少有刚好为 0 的皮尔逊偏中值。因为如果数据的值靠近于 0,则能够认为它具备零偏度,然而在理论数据中很少有没有零偏度的散布数据。

例如,咱们每年观测到的太阳黑子数量的 Pearson 中位数偏度: 平均值 = 48.6,中位数 = 39,标准差 = 39.5。那么公式如下:

如果该值介于:

·-0.5 和 0.5,值的散布简直对称

·- 1 和 -0.5 之间为负偏斜,0.5 到 1 之间为正偏斜。偏度适中。

·如果偏度小于 -1(负偏)或大于 1(正偏),则数据是高度偏斜。

如何解决有偏度数据

如果你的统计过程须要正态分布并且你的数据是歪斜的,你通常有三个抉择:

  • 什么也不做:许多统计测验,包含 t 测验、方差分析和线性回归,对偏斜数据不太敏感。特地是如果偏斜是轻微或中度的,最好的方法就是疏忽它。
  • 数据转换:通过对数据利用某种变换,能够调整数据的散布形态,使其更靠近对称散布。常见的数据转换方法包含取对数、开方、平方根等。这些转换能够减小或打消数据的偏度。
  • 应用不同的模型:你可能想抉择一个不假如正态分布的模型,非参数测试或狭义线性模型可能更适宜您的数据。比如说非参数办法:如果数据的偏度较大,而且无奈通过简略的转换来纠正,能够思考应用非参数统计办法。非参数办法不依赖于散布的假如,而是间接对数据进行剖析,例如应用中位数作为代表性的地位测度,而不是平均值。
  • 分组剖析:如果数据集中存在显著的子群体,能够思考对数据进行分组剖析。通过将数据分成多个子群体,并对每个子群体进行独自的剖析,能够更好地理解数据的特色和偏度状况。
  • 针对特定问题采取相应的办法:依据具体的数据和剖析目标,能够采纳特定的办法来解决偏度数据。例如,在回归剖析中,能够应用偏度稳固转换(skewness-stabilizing transformation)来调整数据的偏度,以满足回归模型的假如。

下表总结了一些罕用数据变换:

总结

数据的偏度是用来掂量概率分布或数据集中不对称水平的统计量。它形容了数据分布的尾部在平均值的哪一侧更重或更长。通过计算偏度,能够更好地理解数据的散布特色,并在须要时采取适当的数据处理或分析方法。然而须要留神的是,偏度只是数据分布的一种度量,不能齐全代表数据的整体特色,因而在剖析数据时须要综合思考其余统计指标和可视化办法。

https://avoid.overfit.cn/post/357fff159a5f41e68be87e56d6530726

作者:Dhaval Raval

正文完
 0