作者 |ABHISHEK SHARMA
编译 |VK
起源 |Analytics Vidhya
概述
- 在数据迷信和剖析畛域,偏度是一个重要的统计学概念
- 理解什么是偏度,以及为什么它对作为数据迷信专业人士的你很重要
介绍
偏度的概念已融入咱们的思维形式。当咱们看到一个图像时,咱们的大脑会直观地分辨出图表中的模式。
你可能曾经晓得,印度有超过 50% 的人口在 25 岁以下,65% 以上的人口在 35 岁以下。
如果你画出印度人口年龄的分布图,你会发现在散布的右边有一个凸起,而左边是绝对平坦的。换言之,咱们能够说有个偏度偏向于末端。
所以,即便你没有读过数据迷信或剖析专业人士的偏度,你必定曾经在非正式上与这个概念进行了互动。
在统计学中,这实际上是一个相当简略的话题,然而很多人在匆忙学习其余看似简单的数据迷信概念的过程中匆匆浏览了一下这个概念。对我来说,这是个谬误。
偏度是数据迷信和剖析畛域的每个人都须要晓得的一个根本统计学概念。这是咱们无奈回避的。我置信你会在这篇文章的结尾了解这一点。
在这里,咱们将以最简略的形式探讨歪斜的概念。你将理解偏度、它的类型以及它在数据迷信畛域中的重要性。
所以,系好安全带,因为你会学到一个在你整个数据迷信职业生涯中都会器重的概念。
目录
- 什么是偏度?
- 为什么偏度很重要?
- 什么是正态分布?
- 理解正偏态散布
- 理解负偏态散布
什么是偏度?
偏度是现实对称概率分布不对称性的度量,由三阶规范矩给出。如果这听起来太简单了,别放心!我来给你解释一下。
简言之,偏度是掂量随机变量的概率分布偏离正态分布的水平。当初,你可能会想,为什么我在这里议论正态分布?
正态分布是没有任何偏度的概率分布。你能够看看上面的图片,它显示了对称散布,基本上是正态分布,你能够看到虚线两边是对称的。除此之外,还有两种类型的偏度:
- 正偏度
- 负偏度
尾巴在左边的概率分布是正偏态散布,尾巴在右边的概率分布是负偏态散布。如果你感觉下面的数字令人困惑,没关系。咱们稍后会更具体地理解这一点。
在此之前,让咱们来理解为什么偏度对于作为数据迷信专业人士的你来说是如此重要的概念。
为什么偏度很重要
当初,咱们晓得偏度是不对称性的度量,它的类型是由概率分布尾巴所在的那一边来辨别的。然而为什么晓得数据的偏度很重要呢
首先,线性模型假如自变量和指标变量的散布类似。因而,理解数据的偏度有助于咱们创立更好的线性模型。
其次,让咱们看看上面的散布。它是汽车的马力散布:
你能够分明地看到下面的散布是正偏度的。当初,假如你想把这个作为模型的一个个性,它能够预测汽车的 mpg(英里 / 加仑)。
因为咱们的数据在这里是正偏度的,这意味着它有更多的低值数据点,也就是说,马力较小的汽车。
因而,当咱们依据这些数据训练咱们的模型时,它将在预测低马力汽车的 mpg 方面体现得比那些高马力的汽车更好。
另外,偏度通知咱们异样值的方向。你能够看到咱们的散布是正偏度的,并且大多数异样值都呈现在散布的右侧。
留神:偏度并不能通知咱们异样值的数量。它只通知咱们方向。
当初咱们晓得了为什么偏度很重要,让咱们来理解一下我之前给你们看的散布。
什么是对称 / 正态分布
是的,咱们又回到正态分布了。
正态分布被用作确定散布的偏度度的参考。正如我后面提到的,现实的正态分布是简直没有偏度的概率分布。它简直齐全对称。因而,正态分布的偏度值为零。
然而,为什么它简直齐全对称而不是相对对称?
这是因为,事实上,没有一个实在的数据完全符合正态分布。因而,偏度的值不齐全为零;它简直为零。尽管零值被用作确定散布的偏度度的参考。
你能够在上图中看到,同一条线示意平均值、中值和众数。这是因为齐全正态分布的平均值、中值和众数是相等的。
到目前为止,咱们曾经用概率或频率散布来了解正态分布的偏度。当初,让咱们用箱线图来了解它,因为这是在数据迷信畛域察看散布的最常见的办法。
上图是对称散布的箱线图。你会留神到 Q1 和 Q2 之间的间隔是相等的,即:
但这还不足以得出一个散布是否歪斜的论断。咱们还看一下线的长度;如果它们相等,那么咱们能够说散布是对称的,也就是说,它不是歪斜的。
既然咱们曾经探讨了正态分布中的偏度,当初是时候理解一下咱们后面探讨过的两种类型的偏度了。让咱们从正偏度开始。
理解正偏态散布
正偏态散布是尾部在右侧的散布。正偏态散布的偏度值大于零。你可能曾经通过观察这个数字理解到,平均值是最大的,而后是中位数,而后是众数。
为什么会这样?
好吧,答案是,散布的尾巴在左边;它导致平均值大于中值,平均值最终向右挪动。此外,众数呈现在散布的最高频率,即中位数的左侧。因而,众数 < 中位数 < 平均值。
在下面的框线图中,你能够看到 Q2 凑近 Q1。这代表了一个正偏态散布。依据四分位数,能够通过以下公式得出:
在这种状况下,很容易判断数据是否歪斜。然而如果咱们有这样的图呢:
这里,Q2-Q1 和 Q3-Q2 是相等的,然而散布是正偏度的。你们当中眼光敏锐的人会留神到右线的长度大于左线的长度。由此,咱们能够得出结论,数据是正偏度的。
所以,第一步总是查看 Q2-Q1 和 Q3-Q2 的相等性。如果这是相等的,那么咱们寻找线的长度。
理解负偏态散布
正如你可能曾经猜到的,负偏态散布是尾巴位于左侧的散布。负偏态散布的偏度值小于零。你还能够在上图中看到 均值 < 中值 < 众数。
在箱线图中,负偏度四分位数之间的关系由以下公式给出:
与咱们之前所做的相似,如果 Q3-Q2 和 Q2-Q1 相等,那么咱们寻找线的长度。如果左线的长度大于右线的长度,那么咱们能够说数据是负偏度的。
咱们如何转换歪斜的数据
既然你晓得歪斜数据会对机器学习模型的预测能力产生多大影响,那么最好将歪斜数据转换为正态分布数据。以下是一些能够转换歪斜数据的办法:
- 幂变换
- log 变换
- 指数变换
注:转换的抉择取决于数据的统计个性。
结尾
在本文中,咱们探讨了偏度的概念、它的类型以及它在数据迷信畛域中的重要性。咱们在概念层面上探讨了偏度,然而如果你想更深刻地钻研,下一步你能够摸索它的数学局部。
原文链接:https://www.analyticsvidhya.c…
欢送关注磐创 AI 博客站:
http://panchuang.net/
sklearn 机器学习中文官网文档:
http://sklearn123.com/
欢送关注磐创博客资源汇总站:
http://docs.panchuang.net/